CN115019185B - 类脑连续学习协同围捕方法、系统及介质 - Google Patents

类脑连续学习协同围捕方法、系统及介质 Download PDF

Info

Publication number
CN115019185B
CN115019185B CN202210924583.1A CN202210924583A CN115019185B CN 115019185 B CN115019185 B CN 115019185B CN 202210924583 A CN202210924583 A CN 202210924583A CN 115019185 B CN115019185 B CN 115019185B
Authority
CN
China
Prior art keywords
agent
brain
enclosure
agents
distance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210924583.1A
Other languages
English (en)
Other versions
CN115019185A (zh
Inventor
胡滨
李圳萍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN202210924583.1A priority Critical patent/CN115019185B/zh
Publication of CN115019185A publication Critical patent/CN115019185A/zh
Application granted granted Critical
Publication of CN115019185B publication Critical patent/CN115019185B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01BMEASURING LENGTH, THICKNESS OR SIMILAR LINEAR DIMENSIONS; MEASURING ANGLES; MEASURING AREAS; MEASURING IRREGULARITIES OF SURFACES OR CONTOURS
    • G01B11/00Measuring arrangements characterised by the use of optical techniques
    • G01B11/14Measuring arrangements characterised by the use of optical techniques for measuring distance or clearance between spaced objects or spaced apertures
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01BMEASURING LENGTH, THICKNESS OR SIMILAR LINEAR DIMENSIONS; MEASURING ANGLES; MEASURING AREAS; MEASURING IRREGULARITIES OF SURFACES OR CONTOURS
    • G01B11/00Measuring arrangements characterised by the use of optical techniques
    • G01B11/26Measuring arrangements characterised by the use of optical techniques for measuring angles or tapers; for testing the alignment of axes
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S11/00Systems for determining distance or velocity not using reflection or reradiation
    • G01S11/12Systems for determining distance or velocity not using reflection or reradiation using electromagnetic waves other than radio waves
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S11/00Systems for determining distance or velocity not using reflection or reradiation
    • G01S11/14Systems for determining distance or velocity not using reflection or reradiation using ultrasonic, sonic, or infrasonic waves
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S15/00Systems using the reflection or reradiation of acoustic waves, e.g. sonar systems
    • G01S15/02Systems using the reflection or reradiation of acoustic waves, e.g. sonar systems using reflection of acoustic waves
    • G01S15/06Systems determining the position data of a target
    • G01S15/08Systems for measuring distance only
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S15/00Systems using the reflection or reradiation of acoustic waves, e.g. sonar systems
    • G01S15/88Sonar systems specially adapted for specific applications
    • G01S15/93Sonar systems specially adapted for specific applications for anti-collision purposes
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Remote Sensing (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • General Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Electromagnetism (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Automation & Control Theory (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种类脑连续学习协同围捕方法、系统及介质,属于类脑智能与机器人领域,方法包括:获取相机拍摄的图像数据并识别图像数据中的其它智能体,将识别到的其它智能体划分为其它围捕智能体和猎物智能体;对于每一其它智能体,为其在图像数据中对应区域的各像素赋予设定值,根据值为设定值的所有像素的个数、中心列位置分别确定其它智能体相对于围捕智能体的第一距离、方位角;获取各超声波传感器探测到的其它智能体相对于围捕智能体的第二距离,根据第二距离更新当前的避障测度;将第一距离、方位角以及当前的避障测度输入MADDPG模型,得到相应的动作策略以控制围捕智能体。提高智能体的决策避障能力,增加障碍环境下围捕效率。

Description

类脑连续学习协同围捕方法、系统及介质
技术领域
本发明属于类脑智能与机器人领域,更具体地,涉及一种类脑连续学习协同围捕方法、系统及介质。
背景技术
为实现机器人协同围捕,机器人设备终端通常配有多种传感器和控制器,传感器采集环境状态信息,控制器处理各类传感信息并给出运动控制命令。然而,复杂障碍环境下,传感器信息输入不完全,机器人的感知、决策和控制过程分散,难以支撑机器人围捕所需的连续学习能力,导致围捕效率低下。
许多基于网络一致性的控制方法被提出,以解决确定环境下多智能体跟踪围捕问题。然而,这些方法大多依赖确定的环境信息,并且假定捕食机器人能直接获取猎物目标的位置、速度及转向等信息,这在猎物相对灵活,如具有逃逸能力时是难以执行的,因此难适用于障碍环境围捕。基于多智能体强化学习的围捕方法一定程度上解决了上述逃逸猎物跟踪难、围捕难等问题。然而,大多强化学习围捕方法存在障碍环境下感知决策不完全、围捕成功率不高等缺陷。如何构建基于类脑连续学习的、实现感知、决策与控制一体化的围捕方法,对提升障碍环境围捕效率具有重要意义。
发明内容
针对现有技术的缺陷和改进需求,本发明提供了一种类脑连续学习协同围捕方法、系统及介质,其目的在于解决现有协同控制围捕方法依赖确定的环境状态信息的局限,导致障碍环境下围捕效率低的问题。
为实现上述目的,按照本发明的一个方面,提供了一种类脑连续学习协同围捕方法,用于围捕智能体,所述围捕智能体配置有相机和多个超声波传感器,方法包括:获取相机拍摄的图像数据并识别所述图像数据中的其它智能体,将识别到的其它智能体划分为其它围捕智能体和猎物智能体;对于每一其它智能体,为其在图像数据中对应区域的各像素赋予设定值,根据值为设定值的所有像素的个数、中心列位置分别确定所述其它智能体相对于所述围捕智能体的第一距离、方位角;获取各超声波传感器探测到的其它智能体相对于所述围捕智能体的第二距离,并在任一超声波传感器探测到的第二距离小于距离阈值,或者,所有超声波传感器探测到的第二距离均不小于距离阈值时,更新当前的避障测度;将各所述其它智能体相对于所述围捕智能体的第一距离、方位角以及当前的避障测度输入训练好的MADDPG模型,得到相应的动作策略,并根据所述动作策略控制所述围捕智能体动作以围捕所述猎物智能体。
更进一步地,所有超声波传感器探测到的第二距离均不小于距离阈值时,更新后的避障测度为0;任一超声波传感器探测到的第二距离小于距离阈值时,更新后的避障测度为:
Figure 924190DEST_PATH_IMAGE001
其中,
Figure 325084DEST_PATH_IMAGE002
为更新后的避障测度,
Figure 558619DEST_PATH_IMAGE003
为更新前的避障测度,
Figure 185910DEST_PATH_IMAGE004
为与奖励函数相适配 的系数,
Figure 38459DEST_PATH_IMAGE005
为第二距离,
Figure 169226DEST_PATH_IMAGE006
为距离阈值。
更进一步地,所述第一距离与值为设定值的所有像素的个数负相关。
更进一步地,所述MADDPG模型采用Actor-Critic框架,方法还包括:采用基于多个不同子策略的训练方法,以整体目标函数关于各子策略的策略参数的梯度收敛为目标,训练所述MADDPG模型。
更进一步地,整体目标函数关于第
Figure 839242DEST_PATH_IMAGE007
个子策略的策略参数的梯度为:
Figure 576997DEST_PATH_IMAGE009
其中,
Figure 92292DEST_PATH_IMAGE010
为第
Figure 343145DEST_PATH_IMAGE007
个子策略的策略参数,
Figure 793849DEST_PATH_IMAGE011
Figure 395732DEST_PATH_IMAGE012
为子策略的总个数,
Figure 714718DEST_PATH_IMAGE013
为整体目标函数,
Figure 944711DEST_PATH_IMAGE014
为各子策略集成的连续策略,
Figure 956529DEST_PATH_IMAGE015
Figure 514549DEST_PATH_IMAGE013
关于
Figure 778172DEST_PATH_IMAGE010
的 梯度,
Figure 738037DEST_PATH_IMAGE016
为状态空间,
Figure 78014DEST_PATH_IMAGE017
为动作空间,
Figure 388910DEST_PATH_IMAGE018
为第
Figure 190644DEST_PATH_IMAGE007
个子策略的经验池,
Figure 270595DEST_PATH_IMAGE019
为满足
Figure 748850DEST_PATH_IMAGE020
状态-动作对条件的奖励函数期望,
Figure 547041DEST_PATH_IMAGE021
为第
Figure 11521DEST_PATH_IMAGE007
个子策略,
Figure 821345DEST_PATH_IMAGE022
为状态信息,
Figure 345867DEST_PATH_IMAGE023
为状 态信息
Figure 365776DEST_PATH_IMAGE022
确定的情况下
Figure 251256DEST_PATH_IMAGE021
选择动作
Figure 40220DEST_PATH_IMAGE017
的概率,
Figure 735644DEST_PATH_IMAGE024
Figure 852635DEST_PATH_IMAGE023
关于
Figure 658917DEST_PATH_IMAGE010
的梯 度;
Figure 567968DEST_PATH_IMAGE025
为连续策略
Figure 168713DEST_PATH_IMAGE026
下的中心化动作价值函数,其输入为
Figure 287848DEST_PATH_IMAGE027
Figure 632241DEST_PATH_IMAGE028
表示识别到的其它智能体的动作;
Figure 661377DEST_PATH_IMAGE029
为以
Figure 308390DEST_PATH_IMAGE022
为输入时子 策略
Figure 790187DEST_PATH_IMAGE021
输出的动作,
Figure 203851DEST_PATH_IMAGE030
Figure 448013DEST_PATH_IMAGE031
关 于
Figure 656140DEST_PATH_IMAGE017
的梯度。
更进一步地,所述动作策略包括:前进、以第一角度左转、以第二角度左转、以第一角度右转、以第二角度右转和停止,所述第一角度小于所述第二角度。
更进一步地,所述MADDPG模型的奖励策略为:当视野中出现猎物智能体且选择趋近猎物智能体的动作策略时,基础奖励值加h;当执行趋近猎物智能体的动作策略后与猎物智能体之间的距离变小时,基础奖励值加n*h;当猎物智能体与M个围捕智能体之间的距离均小于距离阈值时,M个围捕智能体的基础奖励值均加M*h*h;当视野中没有猎物智能体且执行动作策略后视野中仍没有猎物智能体时,基础奖励值减n′*h;其中,h为正整数,n和n′均为小于h的正整数,M≥1。
更进一步地,所述MADDPG模型的奖励函数的最终奖励值为:
Figure 359654DEST_PATH_IMAGE032
其中,
Figure 45851DEST_PATH_IMAGE033
为最终奖励值,
Figure 659366DEST_PATH_IMAGE034
为所述基础奖励值,
Figure 772815DEST_PATH_IMAGE035
为更新后的避障测度。
按照本发明的另一个方面,提供了一种类脑连续学习协同围捕系统,包括多个围捕智能体,每一围捕智能体执行如上所述的类脑连续学习协同围捕方法。
按照本发明的另一个方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如上所述的类脑连续学习协同围捕方法。
总体而言,通过本发明所构思的以上技术方案,能够取得以下有益效果:提出一种类脑连续学习协同围捕方法,为围捕智能体配置相机和多个超声波传感器,通过相机图像感知视野内其它智能体的位置,通过超声波传感器实时更新避障测度,并结合多通道感知机制和强化学习算法,使得围捕智能体具备类脑多通道感知优势,能够完整实时地识别环境状态;通过感知-决策-控制过程的融合,使得围捕智能体能够凭借相机图像数据和超声波测距数据,在状态空间完成对猎物和障碍物的识别、策略优化以及运动控制等一系列过程,提高了智能体的决策避障能力,增加了障碍环境下的围捕效率,适用于用来制备具有自适应于复杂环境、混合协作(兼具合作协同与竞争躲避)等能力的智能机器人系统。
附图说明
图1为本发明实施例提供的类脑连续学习协同围捕方法的流程图。
图2为本发明实施例提供的多机器人协同围捕系统的感知-决策-控制一体化框架。
图3为本发明实施例提供的类脑多通道融合环境感知和类脑连续学习的过程图。
图4为本发明实施例提供的利用MADDPG模型生成动作策略的过程图。
图5A、图5B分别为本发明实施例提供的多机器人协同围捕仿真环境、智能体原型。
图6A、图6B、图6C分别为图5所示仿真环境中三个围捕智能体学习到的动作策略。
图7A、图7B、图7C分别为图5所示仿真环境在场景一中的围捕结束位置、运动轨迹、包围圈。
图8A、图8B、图8C分别为图5所示仿真环境在场景二中的围捕结束位置、运动轨迹、包围圈。
图9A、图9B、图9C分别为图5所示仿真环境在场景三中的围捕结束位置、运动轨迹、包围圈。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
在本发明中,本发明及附图中的术语“第一”、“第二”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
图1为本发明实施例提供的类脑连续学习协同围捕方法的流程图。参阅图1,结合图2-图9C,对本实施例中类脑连续学习协同围捕方法进行详细说明。
类脑连续学习协同围捕方法的应用场景如图5A所示,用于多个围捕智能体围捕猎物智能体的场景。以图5A所示应用场景为例,初始围捕场景是将正方形围捕区域分为四个部分,随机生成四组位置坐标及朝向角度,分配给三个围捕智能体和一个猎物智能体(如机器人)。每一围捕智能体中配置有相机和多个超声波传感器,如图5B所示。优选地,各智能体车身前方设置多个(如8个)超声波传感器,除此之外,围捕智能体正前方设置一个相机,在各智能体的机身分别配置不同颜色的柱体以进行区分。该类脑连续学习协同围捕方法用于任一围捕智能体,为其构建的感知-决策-控制一体化框架如图2所示,整体执行过程如图3所示,方法包括操作S1-操作S4。
操作S1,获取相机拍摄的图像数据并识别图像数据中的其它智能体,将识别到的其它智能体划分为其它围捕智能体和猎物智能体。
通过相机和超声波传感器耦合,构成类脑多通道融合感知。每个围捕智能体配置有一个相机和多个超声波传感器,可以有效感知环境。围捕智能体例如为智能车等设备。基于相机采集的图像数据,设计目标识别网络识别同伴机器人(即其它围捕智能体)及围捕目标(即猎物智能体),获取其方位信息和距离信息;基于超声波传感器的测距数据,设计避障紧急性测度,进行避障设置;基于图像数据的方位信息和距离信息,以及基于超声波传感器的避障信息,在围捕智能体的状态空间进行融合。
本实施例中,例如在各围捕智能体的机身分别配置不同颜色的柱体以进行区分,操作S1中,获取到相机拍摄的图像数据后,识别图像数据中存在的其它智能体(即围捕智能体视野范围内的其它智能体),并根据颜色不同将识别到的其它智能体划分为其它围捕智能体和猎物智能体。需要说明的是,某一时刻,围捕智能体视野范围内可能不存在其它智能体,或者仅存在某一种其它智能体。也可以采用其它方式如卷积神经网络,识别图像数据中的其它智能体并将识别到的其它智能体划分为其它围捕智能体和猎物智能体。
操作S2,对于每一其它智能体,为其在图像数据中对应区域的各像素赋予设定值,根据值为设定值的所有像素的个数、中心列位置分别确定其它智能体相对于围捕智能体的第一距离、方位角。
以由N个围捕智能体和1个猎物智能体形成的实际围捕场景为例,N为不小于3的正整数,对于任一围捕智能体而言,其从相机的图像数据和超声波传感器的测距数据中提取环境状态变量,构建其它各围捕智能体和猎物智能体的观察空间。对于相机的图像数据而言,构建目标识别器以分类不同智能体,并衡量其它各智能体在该围捕智能体自身视野中的距离远近和角度偏向。
对于图像数据中不存在的其它围捕智能体或猎物智能体,相应的状态量例如赋值为-1。对于图像中存在的其它智能体,假设图像数据的像素大小为[128,256],为RGB图像,对于每一其它智能体,为其在图像数据中对应区域的各像素赋予设定值,设定值例如为255,根据值为255的像素的个数确定该其它智能体相对于围捕智能体的第一距离,根据值为255的像素的中心列位置分别确定其它智能体相对于围捕智能体的方位角。
根据本发明的实施例,第一距离与值为设定值的所有像素的个数负相关,值为设定值的所有像素的个数越大,第一距离越小。具体地,对于图像中存在的其它智能体,例如将其值为255的像素的个数除以5000作为第一距离的衡量,比值越大,第一距离越小。另外,对于任一其它智能体而言,可以获得值为255的像素的行列位置,其中心列位置相当于该颜色其它智能体在视野中的方位。由此,获得其它智能体的2N个状态量。
操作S3,获取各超声波传感器探测到的其它智能体相对于围捕智能体的第二距离,并在任一超声波传感器探测到的第二距离小于距离阈值,或者,所有超声波传感器探测到的第二距离均不小于距离阈值时,更新当前的避障测度。
对于超声波测距数据,可以直接采用距离函数进行避障。超声波传感器例如通过距离函数可以直接获取其所在围捕智能体的前方有无障碍物的判断标志,以及到障碍物的最近距离。
优选地,操作S3中,循环读取各超声波传感器探测到的其它智能体相对于围捕智能体的第二距离,只有当探测距离小于距离阈值时才考虑避障。避障测度越小,意味着围捕智能体离障碍物越近,越需要改变方向进行避障。
根据本发明的实施例,避障测度的具体更新方式为:当所有超声波传感器探测到的第二距离均不小于距离阈值时,将避障测度更新为0;当任一超声波传感器探测到的第二距离小于距离阈值时,将避障测度更新为:
Figure 963625DEST_PATH_IMAGE001
其中,
Figure 453512DEST_PATH_IMAGE002
为更新后的避障测度,
Figure 170801DEST_PATH_IMAGE003
为更新前的避障测度,
Figure 720731DEST_PATH_IMAGE004
为与奖励函数相适配 的系数,
Figure 664417DEST_PATH_IMAGE036
为第二距离,
Figure 567782DEST_PATH_IMAGE037
为距离阈值。该避障测度为围捕智能体获得的第2N+1个状态 量。基于上述操作S1-操作S3,每个围捕智能体的状态空间为2N+1维,前2N维为围捕智能体 到其它智能体的距离和方位,最后一维为围捕智能体避障紧急性测度。
操作S4,将各其它智能体相对于围捕智能体的第一距离、方位角以及当前的避障测度输入训练好的MADDPG模型,得到相应的动作策略,并根据动作策略控制围捕智能体动作以围捕猎物智能体。
围捕智能体的动作策略由上述基于多通道感知的类脑连续学习到的状态空间计算得到。具体地,围捕智能体将获得的2N+1个状态量输入训练好的MADDPG模型,输出相应的动作策略。根据本发明的实施例,MADDPG模型采用Actor-Critic框架,在执行围捕任务之前,需要对MADDPG模型进行训练,具体地:采用基于多个不同子策略的训练方法,以整体目标函数关于各子策略的策略参数的梯度收敛为目标,训练MADDPG模型。MADDPG模型的训练过程如图4所示。
本实施例中,结合避障行为构建动作空间,形成动作策略。根据本发明的实施例,动作策略包括:前进、以第一角度左转、以第二角度左转、以第一角度右转、以第二角度右转和停止,构成智能体的六维动作空间,第一角度小于第二角度。需要说明的是,智能体的前进动作不是单纯往前走,而是包含避障行为的动作,即,当离障碍物很近时,智能体进行该动作会产生避障效果,当检测不到障碍物时,智能体进行该动作会产生前进效果。优选地,第一角度例如为30º,第二角度例如为50 º。
本实施例中,综合动作策略和避障测度为MADDPG模型设置奖励函数。一方面,在围捕过程中设置许多小额度奖励,引导围捕智能体移动并寻找猎物智能体。基于此,为MADDPG模型设计的奖励策略为:当视野中出现猎物智能体且选择趋近猎物智能体的动作策略时,基础奖励值加h;当执行趋近猎物智能体的动作策略后与猎物智能体之间的距离变小时,基础奖励值加n*h;当猎物智能体与M个围捕智能体之间的距离均小于距离阈值时,M个围捕智能体的基础奖励值均加M*h*h;当视野中没有猎物智能体且执行动作策略后视野中仍没有猎物智能体时,基础奖励值减n′*h;其中,h为正整数,n和n′均为小于h的正整数,M≥1。
具体地,例如当围捕智能体的视野中出现猎物智能体,且选择前进策略时,基础奖励值加10;当猎物智能体在围捕智能体视野中偏左,且围捕智能体选择左转策略,基础奖励值加10;当猎物智能体在围捕智能体视野中偏右,且围捕智能体选择右转策略,基础奖励值加10;当执行趋近猎物智能体的动作策略后与猎物智能体之间的距离变小时,基础奖励值加8*10;当猎物智能体在M(M=1,2,…,N)个围捕智能体视野中心位置,且距离均不超过距离阈值时,这M个围捕智能体的基础奖励值均加M*h*h,如果M=N,围捕成功;如果猎物智能体不在围捕智能体视野中,且围捕智能体执行动作策略后视野中仍没有猎物智能体时,基础奖励值减2*10,作为惩罚。
另一方面,考虑障碍物情况,每一步动作后,围捕智能体的奖励在上述基础奖惩策略基础上,加上避障测度。为了匹配上述基础奖励值,一般采用避障测度*10的形式,由此,为MADDPG模型的奖励函数的最终奖励值为:
Figure 14944DEST_PATH_IMAGE038
其中,
Figure 735775DEST_PATH_IMAGE033
为最终奖励值,
Figure 901177DEST_PATH_IMAGE034
为基础奖励值,
Figure 621615DEST_PATH_IMAGE035
为更新后的避障测度。
对于MADDPG模型中的Action网络,当前状态
Figure 923283DEST_PATH_IMAGE039
下,围捕智能体i根据决策(即动作 策略)
Figure 815016DEST_PATH_IMAGE040
选择行为
Figure 343080DEST_PATH_IMAGE041
,环境生成一个奖励
Figure 712882DEST_PATH_IMAGE042
反馈给围捕智能体i,同时根据状态转移函数 生成下一个状态
Figure 134636DEST_PATH_IMAGE043
。每一个围捕智能体i的更新目标是最大化耦合累计奖励
Figure 197270DEST_PATH_IMAGE044
,其中,
Figure 196319DEST_PATH_IMAGE045
为折扣因子,
Figure 635390DEST_PATH_IMAGE046
为回合步长,奖励
Figure 911651DEST_PATH_IMAGE042
为上述最终奖励值计算方式 得到的。围捕智能体i期望回报
Figure 145186DEST_PATH_IMAGE047
的梯度为:
Figure 647843DEST_PATH_IMAGE049
其中,
Figure 359447DEST_PATH_IMAGE050
表示期望算子,
Figure 755793DEST_PATH_IMAGE051
为一个集中式动作价值函数,输入包 含一些状态信息
Figure 786328DEST_PATH_IMAGE052
和智能体的动作
Figure 635336DEST_PATH_IMAGE053
,输出为围捕智能体i
Figure 150630DEST_PATH_IMAGE054
值,其中,
Figure 401483DEST_PATH_IMAGE052
可由所 有智能体的观察状态组成。
对于MADDPG模型中的Critic网络,将上述梯度构造法与确定性策略结合,设置N个 连续的策略
Figure 852187DEST_PATH_IMAGE055
,回报梯度为:
Figure 454070DEST_PATH_IMAGE057
其中,经验池D包含元组
Figure 773056DEST_PATH_IMAGE058
,记录所有智能体的经验数据。 通过最小化误差函数
Figure 3049DEST_PATH_IMAGE059
,学习获得集中式动作价值函数
Figure 749288DEST_PATH_IMAGE060
Figure 307308DEST_PATH_IMAGE061
Figure 429985DEST_PATH_IMAGE062
其中,
Figure 265217DEST_PATH_IMAGE063
表示带有滞后参数
Figure 447937DEST_PATH_IMAGE064
的目标策略集合。
为实现信息交互,每个围捕智能体i保留对邻居围捕智能体j的真实策略
Figure 758832DEST_PATH_IMAGE065
的估 计,记为估计
Figure 48649DEST_PATH_IMAGE066
,其中
Figure 863021DEST_PATH_IMAGE067
Figure 216642DEST_PATH_IMAGE068
待估计的参数。这个估计策略是通过最大化下列目标函数
Figure 749255DEST_PATH_IMAGE069
得到,
Figure 823521DEST_PATH_IMAGE069
由围捕智能体j行为的对数概率和熵正则项构成:
Figure 23558DEST_PATH_IMAGE070
其中,
Figure 548081DEST_PATH_IMAGE071
是策略分布的交叉熵函数。再使用下列估计值
Figure 427044DEST_PATH_IMAGE072
替代之前的
Figure 695214DEST_PATH_IMAGE073
Figure 749758DEST_PATH_IMAGE074
其中,
Figure 54968DEST_PATH_IMAGE075
表示估计策略
Figure 562173DEST_PATH_IMAGE068
的目标网络。根据上述
Figure 368455DEST_PATH_IMAGE076
的表达式,可以在线优化
Figure 11926DEST_PATH_IMAGE076
,即从经验池获得智能体j的最新采样信息,用于计算梯度来更新
Figure 504349DEST_PATH_IMAGE077
Figure 233271DEST_PATH_IMAGE054
值由每一个 智能体的行为对数概率直接输入得到,无需依赖采样获得。
为克服竞争智能体策略变化的影响,使用基于
Figure 843244DEST_PATH_IMAGE078
个不同子策略的训练方法,增加 智能体的鲁棒性。在每一个回合中,智能体i随机选取一个特定的子策略去执行。假设策略
Figure 747746DEST_PATH_IMAGE079
Figure 519393DEST_PATH_IMAGE078
个不同子策略组成,记作
Figure 1190DEST_PATH_IMAGE080
。智能体i学习的目标是最大化下列整体目标函数:
Figure 149274DEST_PATH_IMAGE081
因为不同的子策略会在不同的回合中执行,需要为智能体i的每一个子策略
Figure 157551DEST_PATH_IMAGE080
保留一个经验池
Figure 100099DEST_PATH_IMAGE082
。整体目标函数关于
Figure 803613DEST_PATH_IMAGE083
的梯度计算如下:
Figure 630754DEST_PATH_IMAGE085
对于本发明实施例中用于任一围捕智能体的类脑连续学习协同围捕方法而言,其 MADDPG模型整体目标函数关于第
Figure 103324DEST_PATH_IMAGE086
个子策略的策略参数的梯度为:
Figure 482353DEST_PATH_IMAGE088
其中,
Figure 561911DEST_PATH_IMAGE089
为第
Figure 51798DEST_PATH_IMAGE086
个子策略的策略参数,
Figure 644453DEST_PATH_IMAGE090
Figure 194383DEST_PATH_IMAGE078
为子策略的总个数,
Figure 482276DEST_PATH_IMAGE091
为整体目标函数,
Figure 41434DEST_PATH_IMAGE092
为各子策略集成的连续策略,
Figure 223016DEST_PATH_IMAGE093
Figure 943848DEST_PATH_IMAGE091
关于
Figure 233883DEST_PATH_IMAGE089
的梯 度,
Figure 65573DEST_PATH_IMAGE052
为状态空间,
Figure 367242DEST_PATH_IMAGE094
为动作空间,
Figure 399920DEST_PATH_IMAGE095
为第
Figure 52618DEST_PATH_IMAGE086
个子策略的经验池,
Figure 687999DEST_PATH_IMAGE096
为满足
Figure 844173DEST_PATH_IMAGE095
状态-动作对条件的奖励函数期望,
Figure 798485DEST_PATH_IMAGE097
为第
Figure 672900DEST_PATH_IMAGE086
个子策略,
Figure 846393DEST_PATH_IMAGE098
为状态信息,
Figure 998019DEST_PATH_IMAGE099
为状态 信息
Figure 231555DEST_PATH_IMAGE098
确定的情况下
Figure 858845DEST_PATH_IMAGE097
选择动作
Figure 570449DEST_PATH_IMAGE094
的概率,
Figure 91429DEST_PATH_IMAGE100
Figure 761445DEST_PATH_IMAGE099
关于
Figure 344873DEST_PATH_IMAGE089
的梯 度;
Figure DEST_PATH_IMAGE101
为连续策略
Figure 266693DEST_PATH_IMAGE092
下的中心化动作价值函数,其输入为
Figure DEST_PATH_IMAGE102
Figure 783125DEST_PATH_IMAGE053
表示识别到的其它智能体的动作;
Figure 999210DEST_PATH_IMAGE103
为以
Figure 69934DEST_PATH_IMAGE098
为输入时子策 略
Figure 654499DEST_PATH_IMAGE097
输出的动作,
Figure DEST_PATH_IMAGE104
Figure 635224DEST_PATH_IMAGE105
关于
Figure 381463DEST_PATH_IMAGE094
的梯度。
本实施例中,例如采用Paddle/PARL/MADDPG框架实现。训练模型中,假定三个围捕智能体的速度相等,且与猎物智能体的速度相同,训练实验含4500个回合,每个回合步数为25步。MADDPG算法训练相关参数为:critic模型的学习率critic_lr = 0.01;actor模型的学习率actor_lr=0.01;奖励折扣因子gamma=0.95、batch_size=128;一个回合的最大步数为25,每一步的仿真时间为1s。另外,训练用到贪心算法(epsilon-greedy),参数设置为epsilon=0.8。当随机数小于epsilon时,根据决策网络输出的概率分布采样动作;否则,等概率采样动作,增加智能体的探索性。
本实施例中,采用MADDPG算法中的Actor-Critic框架和集中训练-分散执行的模式,每个智能体设置集中式Critic网络,用于接受全局信息。其优点是无需建立现实通信规则,能够解决环境非平稳性问题,且算法容易收敛至全局最优解,适用于有限场景下多智能体协同围捕任务。
图6A、图6B、图6C分别示出了通过本实施例中类脑连续学习协同围捕方法,三个围捕智能体获得的最优动作策略。参阅图6A,围捕智能体1学习到的动作策略为:当视野中没有猎物智能体时,执行第一角度右转动作,当视野中出现猎物智能体时,执行前进动作。参阅图6B,围捕智能体2学习到的动作策略则是几乎一直执行第一角度左转动作。参阅图6C,围捕智能体3学习到的动作策略是:当视野中没有猎物智能体时,执行第二角度右转动作,当视野中出现猎物智能体时,执行前进动作。测试仿真运行50个回合,围捕智能体1的平均奖励为-63.23251736,围捕智能体2的平均奖励为-380.0931714,围捕智能体3的平均奖励为33.20684717,总奖励平均值为-410.1188416,可见围捕智能体3的策略相对更优。
场景一:围捕智能体速度为猎物智能体速度的3倍,且猎物智能体运行策略为直行不避障,此测试场景记为3speed_forward。采用本发明实施例中类脑连续学习协同围捕方法,围捕成功率约为90%。实验50个回合,每个回合平均步数为23.22。某次围捕成功时四个智能体的结束位置和运动轨迹如图7A和图7B所示;将每次围捕成功智能体的结束位置画在一起,如图7C所示,三个围捕智能体近似分布在以猎物智能体为中心、半径不超过1.0m的圆周以内,形成了一个包围圈。
场景二:围捕智能体速度为猎物智能体速度的3倍,但猎物智能体更灵活,其运行策略为直行且能避障,此测试场景记为3speed_ actuation。采用本发明实施例中类脑连续学习协同围捕方法,实验50个回合,围捕成功率约为78%。某次围捕成功时四个智能体的结束位置和运动轨迹如图8A和图8B所示;将每次围捕成功智能体的结束位置画在一起,如图8C所示,可见围捕成功。相比场景一,猎物智能体更具灵活性,可以自主躲避,增加了围捕难度,导致围捕成功率变低。
场景三:围捕智能体速度为猎物智能体速度的2倍,猎物智能体运行策略为直行,此测试场景记为2speed_forward。采用本发明实施例中类脑连续学习协同围捕方法,同样实验50个回合,围捕成功率约为50%。某次围捕成功时四个智能体的结束位置和运动轨迹如图9A和图9B所示;将每次围捕成功智能体的结束位置画在一起,如图9C所示,可见围捕成功。但相比场景一,由于围捕智能体速度变慢,围捕成功率变低。
综合上述实验结果可见,猎物智能体的动作策略越“智能”,如能自主避障,或围捕智能体的速度越慢,都会导致围捕成功率降低,这些现象与人类的先验知识相符。另外,三个包围圈示意图表明,不同场景围捕成功时,围捕智能体的结束位置都在以猎物智能体为中心的特定圆周内,验证了本实施例中类脑连续学习协同围捕方法的合理性,及其在不同场景下的可扩展性。
本发明实施例还提供了一种类脑连续学习协同围捕系统,包括多个围捕智能体。每个围捕智能体执行如图1-图9C所示的类脑连续学习协同围捕方法。
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序。该程序被处理器执行时实现如图1-图9C所示的类脑连续学习协同围捕方法。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种类脑连续学习协同围捕方法,用于围捕智能体,其特征在于,所述围捕智能体配置有相机和多个超声波传感器,方法包括:
获取相机拍摄的图像数据并识别所述图像数据中的其它智能体,将识别到的其它智能体划分为其它围捕智能体和猎物智能体;
对于每一其它智能体,为其在图像数据中对应区域的各像素赋予设定值,根据值为设定值的所有像素的个数、中心列位置分别确定所述其它智能体相对于所述围捕智能体的第一距离、方位角;
获取各超声波传感器探测到的其它智能体相对于所述围捕智能体的第二距离,并在任一超声波传感器探测到的第二距离小于距离阈值,或者,所有超声波传感器探测到的第二距离均不小于距离阈值时,更新当前的避障测度;
将各所述其它智能体相对于所述围捕智能体的第一距离、方位角以及当前的避障测度输入训练好的MADDPG模型,得到相应的动作策略,并根据所述动作策略控制所述围捕智能体动作以围捕所述猎物智能体。
2.如权利要求1所述的类脑连续学习协同围捕方法,其特征在于,所有超声波传感器探测到的第二距离均不小于距离阈值时,更新后的避障测度为0;任一超声波传感器探测到的第二距离小于距离阈值时,更新后的避障测度为:
Figure 50610DEST_PATH_IMAGE001
其中,
Figure 233329DEST_PATH_IMAGE002
为更新后的避障测度,
Figure 154012DEST_PATH_IMAGE003
为更新前的避障测度,
Figure 814801DEST_PATH_IMAGE004
为与奖励函数相适配的系 数,
Figure 894752DEST_PATH_IMAGE005
为第二距离,
Figure 982794DEST_PATH_IMAGE006
为距离阈值。
3.如权利要求1所述的类脑连续学习协同围捕方法,其特征在于,所述第一距离与值为设定值的所有像素的个数负相关。
4.如权利要求1所述的类脑连续学习协同围捕方法,其特征在于,所述MADDPG模型采用Actor-Critic框架,方法还包括:采用基于多个不同子策略的训练方法,以整体目标函数关于各子策略的策略参数的梯度收敛为目标,训练所述MADDPG模型。
5.如权利要求4所述的类脑连续学习协同围捕方法,其特征在于,整体目标函数关于第
Figure 138575DEST_PATH_IMAGE007
个子策略的策略参数的梯度为:
Figure 603055DEST_PATH_IMAGE009
其中,
Figure 537512DEST_PATH_IMAGE010
为第
Figure 796456DEST_PATH_IMAGE007
个子策略的策略参数,
Figure 691730DEST_PATH_IMAGE011
Figure 694321DEST_PATH_IMAGE012
为子策略的总个数,
Figure 483286DEST_PATH_IMAGE013
为整体目标函数,
Figure 178709DEST_PATH_IMAGE014
为各子策略集成的连续策略,
Figure 810548DEST_PATH_IMAGE015
Figure 351251DEST_PATH_IMAGE013
关于
Figure 525880DEST_PATH_IMAGE010
的梯度,
Figure 1992DEST_PATH_IMAGE016
为状态空间,
Figure 996493DEST_PATH_IMAGE017
为动作空间,
Figure 75307DEST_PATH_IMAGE018
为第
Figure 838864DEST_PATH_IMAGE007
个子策略的经验池,
Figure 767768DEST_PATH_IMAGE019
为满足
Figure 983985DEST_PATH_IMAGE020
状态-动作对条件的奖励函数期望,
Figure 132070DEST_PATH_IMAGE021
为第
Figure 484554DEST_PATH_IMAGE007
个子策略,
Figure 833627DEST_PATH_IMAGE022
为状态信息,
Figure 537141DEST_PATH_IMAGE023
为状态 信息
Figure 223337DEST_PATH_IMAGE022
确定的情况下
Figure 961486DEST_PATH_IMAGE021
选择动作
Figure 465148DEST_PATH_IMAGE017
的概率,
Figure 655958DEST_PATH_IMAGE024
Figure 145845DEST_PATH_IMAGE023
关于
Figure 472922DEST_PATH_IMAGE010
的梯 度;
Figure 898218DEST_PATH_IMAGE025
为连续策略
Figure 576324DEST_PATH_IMAGE026
下的中心化动作价值函数,其输入为
Figure 869902DEST_PATH_IMAGE027
Figure 317064DEST_PATH_IMAGE028
表示识别到的其它智能体的动作;
Figure 506737DEST_PATH_IMAGE029
为以
Figure 312886DEST_PATH_IMAGE022
为输入时子策略
Figure 144576DEST_PATH_IMAGE021
输出的动作,
Figure 711823DEST_PATH_IMAGE030
Figure 337977DEST_PATH_IMAGE031
关于
Figure 866041DEST_PATH_IMAGE017
的梯度。
6.如权利要求1所述的类脑连续学习协同围捕方法,其特征在于,所述动作策略包括:前进、以第一角度左转、以第二角度左转、以第一角度右转、以第二角度右转和停止,所述第一角度小于所述第二角度。
7.如权利要求1-6任一项所述的类脑连续学习协同围捕方法,其特征在于,所述MADDPG模型的奖励策略为:当视野中出现猎物智能体且选择趋近猎物智能体的动作策略时,基础奖励值加h;当执行趋近猎物智能体的动作策略后与猎物智能体之间的距离变小时,基础奖励值加n*h;当猎物智能体与M个围捕智能体之间的距离均小于距离阈值时,M个围捕智能体的基础奖励值均加M*h*h;当视野中没有猎物智能体且执行动作策略后视野中仍没有猎物智能体时,基础奖励值减n′*h;其中,h为正整数,n和n′均为小于h的正整数,M≥1。
8.如权利要求7所述的类脑连续学习协同围捕方法,其特征在于,所述MADDPG模型的奖励函数的最终奖励值为:
Figure 501422DEST_PATH_IMAGE032
其中,
Figure 657597DEST_PATH_IMAGE033
为最终奖励值,
Figure 720230DEST_PATH_IMAGE034
为所述基础奖励值,
Figure 719279DEST_PATH_IMAGE035
为更新后的避障测度。
9.一种类脑连续学习协同围捕系统,包括多个围捕智能体,其特征在于,每一围捕智能体执行如权利要求1-8任一项所述的类脑连续学习协同围捕方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-8中任一项所述的类脑连续学习协同围捕方法。
CN202210924583.1A 2022-08-03 2022-08-03 类脑连续学习协同围捕方法、系统及介质 Active CN115019185B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210924583.1A CN115019185B (zh) 2022-08-03 2022-08-03 类脑连续学习协同围捕方法、系统及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210924583.1A CN115019185B (zh) 2022-08-03 2022-08-03 类脑连续学习协同围捕方法、系统及介质

Publications (2)

Publication Number Publication Date
CN115019185A CN115019185A (zh) 2022-09-06
CN115019185B true CN115019185B (zh) 2022-10-21

Family

ID=83065481

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210924583.1A Active CN115019185B (zh) 2022-08-03 2022-08-03 类脑连续学习协同围捕方法、系统及介质

Country Status (1)

Country Link
CN (1) CN115019185B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115249245B (zh) * 2022-09-22 2022-12-23 深圳华声医疗技术股份有限公司 超声成像参数优化方法、装置、计算机设备及存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105182973A (zh) * 2015-09-08 2015-12-23 郑州大学 多机器人追捕者围捕单移动目标的自适应围捕装置与方法
CN108197698A (zh) * 2017-12-13 2018-06-22 中国科学院自动化研究所 基于多模态融合的多脑区协同自主决策方法
CN112180724A (zh) * 2020-09-25 2021-01-05 中国人民解放军军事科学院国防科技创新研究院 一种在干扰条件下多智能体协同合作的训练方法及系统
CN113156954A (zh) * 2021-04-25 2021-07-23 电子科技大学 一种基于增强学习的多智能体集群避障方法
CN113268078A (zh) * 2021-04-20 2021-08-17 四川大学 一种无人机群自适应环境的目标追踪围捕方法
CN113723012A (zh) * 2021-09-10 2021-11-30 上海交通大学 一种基于多智能体生成对抗模仿安全学习的协作围捕方法
CN113821041A (zh) * 2021-10-09 2021-12-21 中山大学 一种多机器人协同导航与避障的方法
CN113900445A (zh) * 2021-10-13 2022-01-07 厦门渊亭信息科技有限公司 基于多智能体强化学习的无人机协同控制训练方法及系统
CN114721424A (zh) * 2022-03-18 2022-07-08 中国人民解放军国防科技大学 一种多无人机协同对抗方法、系统以及存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105182973A (zh) * 2015-09-08 2015-12-23 郑州大学 多机器人追捕者围捕单移动目标的自适应围捕装置与方法
CN108197698A (zh) * 2017-12-13 2018-06-22 中国科学院自动化研究所 基于多模态融合的多脑区协同自主决策方法
CN112180724A (zh) * 2020-09-25 2021-01-05 中国人民解放军军事科学院国防科技创新研究院 一种在干扰条件下多智能体协同合作的训练方法及系统
CN113268078A (zh) * 2021-04-20 2021-08-17 四川大学 一种无人机群自适应环境的目标追踪围捕方法
CN113156954A (zh) * 2021-04-25 2021-07-23 电子科技大学 一种基于增强学习的多智能体集群避障方法
CN113723012A (zh) * 2021-09-10 2021-11-30 上海交通大学 一种基于多智能体生成对抗模仿安全学习的协作围捕方法
CN113821041A (zh) * 2021-10-09 2021-12-21 中山大学 一种多机器人协同导航与避障的方法
CN113900445A (zh) * 2021-10-13 2022-01-07 厦门渊亭信息科技有限公司 基于多智能体强化学习的无人机协同控制训练方法及系统
CN114721424A (zh) * 2022-03-18 2022-07-08 中国人民解放军国防科技大学 一种多无人机协同对抗方法、系统以及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于多机器人系统的多目标围捕协同控制问题研究;马俊冲;《中国优秀硕士学位论文全文数据库(信息科技辑)》;20210131;I140-776 *
深度强化学习在围捕逃逸问题中的应用研究;黄思宇;《《中国优秀硕士学位论文全文数据库(信息科技辑)》》;20200331;I140-110 *

Also Published As

Publication number Publication date
CN115019185A (zh) 2022-09-06

Similar Documents

Publication Publication Date Title
Mishkin et al. Benchmarking classic and learned navigation in complex 3d environments
Dasari et al. Robonet: Large-scale multi-robot learning
Wang et al. Learning to navigate through complex dynamic environment with modular deep reinforcement learning
Hüttenrauch et al. Guided deep reinforcement learning for swarm systems
CN107403426B (zh) 一种目标物体检测方法及设备
US9579789B2 (en) Apparatus and methods for training of robotic control arbitration
US7765029B2 (en) Hybrid control device
CN115019185B (zh) 类脑连续学习协同围捕方法、系统及介质
CN111723931B (zh) 一种多智能体对抗动作预测方法及装置
Liu et al. Episodic memory-based robotic planning under uncertainty
CN112651486A (zh) 一种提高maddpg算法收敛速度的方法及其应用
Ma et al. Learning to navigate in indoor environments: From memorizing to reasoning
Mun et al. Occlusion-aware crowd navigation using people as sensors
CN110977966A (zh) 一种基于虚拟场景训练的机器人避障方法
Salvatore et al. A neuro-inspired approach to intelligent collision avoidance and navigation
Ma et al. Using RGB image as visual input for mapless robot navigation
Gromniak et al. Deep reinforcement learning for mobile robot navigation
JP2005078516A (ja) 並列学習装置、並列学習方法及び並列学習プログラム
Desai et al. Auxiliary tasks for efficient learning of point-goal navigation
Mazzia et al. Deepway: a deep learning estimator for unmanned ground vehicle global path planning
CN113486871B (zh) 基于深度图的无人车局部自主控制方法、装置和设备
Liu et al. Robotic cognitive behavior control based on biology-inspired episodic memory
Nguyen et al. Disturbances in influence of a shepherding agent is more impactful than sensorial noise during swarm guidance
Cheng et al. Distributed area coverage using robot flocks
Yuan et al. Method of robot episode cognition based on hippocampus mechanism

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant