CN115019185A - 类脑连续学习协同围捕方法、系统及介质 - Google Patents
类脑连续学习协同围捕方法、系统及介质 Download PDFInfo
- Publication number
- CN115019185A CN115019185A CN202210924583.1A CN202210924583A CN115019185A CN 115019185 A CN115019185 A CN 115019185A CN 202210924583 A CN202210924583 A CN 202210924583A CN 115019185 A CN115019185 A CN 115019185A
- Authority
- CN
- China
- Prior art keywords
- agent
- brain
- enclosure
- agents
- distance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001926 trapping method Methods 0.000 title claims abstract description 16
- 230000000875 corresponding effect Effects 0.000 claims abstract description 12
- 230000009471 action Effects 0.000 claims description 52
- 238000000034 method Methods 0.000 claims description 44
- 230000006870 function Effects 0.000 claims description 29
- 230000000007 visual effect Effects 0.000 claims description 13
- 238000012549 training Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 3
- 230000001276 controlling effect Effects 0.000 claims description 3
- 238000003860 storage Methods 0.000 claims description 3
- 239000003795 chemical substances by application Substances 0.000 description 185
- 230000008569 process Effects 0.000 description 9
- 238000004088 simulation Methods 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 5
- 230000006399 behavior Effects 0.000 description 4
- 230000008447 perception Effects 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 230000010354 integration Effects 0.000 description 3
- 230000002787 reinforcement Effects 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 230000007547 defect Effects 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 241000282414 Homo sapiens Species 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000013486 operation strategy Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 244000062804 prey Species 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01B—MEASURING LENGTH, THICKNESS OR SIMILAR LINEAR DIMENSIONS; MEASURING ANGLES; MEASURING AREAS; MEASURING IRREGULARITIES OF SURFACES OR CONTOURS
- G01B11/00—Measuring arrangements characterised by the use of optical techniques
- G01B11/14—Measuring arrangements characterised by the use of optical techniques for measuring distance or clearance between spaced objects or spaced apertures
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01B—MEASURING LENGTH, THICKNESS OR SIMILAR LINEAR DIMENSIONS; MEASURING ANGLES; MEASURING AREAS; MEASURING IRREGULARITIES OF SURFACES OR CONTOURS
- G01B11/00—Measuring arrangements characterised by the use of optical techniques
- G01B11/26—Measuring arrangements characterised by the use of optical techniques for measuring angles or tapers; for testing the alignment of axes
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S11/00—Systems for determining distance or velocity not using reflection or reradiation
- G01S11/12—Systems for determining distance or velocity not using reflection or reradiation using electromagnetic waves other than radio waves
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S11/00—Systems for determining distance or velocity not using reflection or reradiation
- G01S11/14—Systems for determining distance or velocity not using reflection or reradiation using ultrasonic, sonic, or infrasonic waves
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S15/00—Systems using the reflection or reradiation of acoustic waves, e.g. sonar systems
- G01S15/02—Systems using the reflection or reradiation of acoustic waves, e.g. sonar systems using reflection of acoustic waves
- G01S15/06—Systems determining the position data of a target
- G01S15/08—Systems for measuring distance only
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S15/00—Systems using the reflection or reradiation of acoustic waves, e.g. sonar systems
- G01S15/88—Sonar systems specially adapted for specific applications
- G01S15/93—Sonar systems specially adapted for specific applications for anti-collision purposes
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/04—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
- G05B13/042—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Computer Networks & Wireless Communication (AREA)
- Acoustics & Sound (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Automation & Control Theory (AREA)
- Electromagnetism (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种类脑连续学习协同围捕方法、系统及介质,属于类脑智能与机器人领域,方法包括:获取相机拍摄的图像数据并识别图像数据中的其它智能体,将识别到的其它智能体划分为其它围捕智能体和猎物智能体;对于每一其它智能体,为其在图像数据中对应区域的各像素赋予设定值,根据值为设定值的所有像素的个数、中心列位置分别确定其它智能体相对于围捕智能体的第一距离、方位角;获取各超声波传感器探测到的其它智能体相对于围捕智能体的第二距离,根据第二距离更新当前的避障测度;将第一距离、方位角以及当前的避障测度输入MADDPG模型,得到相应的动作策略以控制围捕智能体。提高智能体的决策避障能力,增加障碍环境下围捕效率。
Description
技术领域
本发明属于类脑智能与机器人领域,更具体地,涉及一种类脑连续学习协同围捕方法、系统及介质。
背景技术
为实现机器人协同围捕,机器人设备终端通常配有多种传感器和控制器,传感器采集环境状态信息,控制器处理各类传感信息并给出运动控制命令。然而,复杂障碍环境下,传感器信息输入不完全,机器人的感知、决策和控制过程分散,难以支撑机器人围捕所需的连续学习能力,导致围捕效率低下。
许多基于网络一致性的控制方法被提出,以解决确定环境下多智能体跟踪围捕问题。然而,这些方法大多依赖确定的环境信息,并且假定捕食机器人能直接获取猎物目标的位置、速度及转向等信息,这在猎物相对灵活,如具有逃逸能力时是难以执行的,因此难适用于障碍环境围捕。基于多智能体强化学习的围捕方法一定程度上解决了上述逃逸猎物跟踪难、围捕难等问题。然而,大多强化学习围捕方法存在障碍环境下感知决策不完全、围捕成功率不高等缺陷。如何构建基于类脑连续学习的、实现感知、决策与控制一体化的围捕方法,对提升障碍环境围捕效率具有重要意义。
发明内容
针对现有技术的缺陷和改进需求,本发明提供了一种类脑连续学习协同围捕方法、系统及介质,其目的在于解决现有协同控制围捕方法依赖确定的环境状态信息的局限,导致障碍环境下围捕效率低的问题。
为实现上述目的,按照本发明的一个方面,提供了一种类脑连续学习协同围捕方法,用于围捕智能体,所述围捕智能体配置有相机和多个超声波传感器,方法包括:获取相机拍摄的图像数据并识别所述图像数据中的其它智能体,将识别到的其它智能体划分为其它围捕智能体和猎物智能体;对于每一其它智能体,为其在图像数据中对应区域的各像素赋予设定值,根据值为设定值的所有像素的个数、中心列位置分别确定所述其它智能体相对于所述围捕智能体的第一距离、方位角;获取各超声波传感器探测到的其它智能体相对于所述围捕智能体的第二距离,并在任一超声波传感器探测到的第二距离小于距离阈值,或者,所有超声波传感器探测到的第二距离均不小于距离阈值时,更新当前的避障测度;将各所述其它智能体相对于所述围捕智能体的第一距离、方位角以及当前的避障测度输入训练好的MADDPG模型,得到相应的动作策略,并根据所述动作策略控制所述围捕智能体动作以围捕所述猎物智能体。
更进一步地,所有超声波传感器探测到的第二距离均不小于距离阈值时,更新后的避障测度为0;任一超声波传感器探测到的第二距离小于距离阈值时,更新后的避障测度为:
更进一步地,所述第一距离与值为设定值的所有像素的个数负相关。
更进一步地,所述MADDPG模型采用Actor-Critic框架,方法还包括:采用基于多个不同子策略的训练方法,以整体目标函数关于各子策略的策略参数的梯度收敛为目标,训练所述MADDPG模型。
其中,为第个子策略的策略参数,,为子策略的总个数,为整体目标函数,为各子策略集成的连续策略,为关于的梯
度,为状态空间,为动作空间,为第个子策略的经验池,为满足
状态-动作对条件的奖励函数期望,为第个子策略,为状态信息,为状态
信息确定的情况下选择动作的概率,为关于的梯
度;为连续策略下的中心化动作价值函数,其输入为,表示识别到的其它智能体的动作;为以为输入时子策略输出的
动作,为关于的梯
度。
更进一步地,所述动作策略包括:前进、以第一角度左转、以第二角度左转、以第一角度右转、以第二角度右转和停止,所述第一角度小于所述第二角度。
更进一步地,所述MADDPG模型的奖励策略为:当视野中出现猎物智能体且选择趋近猎物智能体的动作策略时,基础奖励值加h;当执行趋近猎物智能体的动作策略后与猎物智能体之间的距离变小时,基础奖励值加n*h;当猎物智能体与M个围捕智能体之间的距离均小于距离阈值时,M个围捕智能体的基础奖励值均加M*h*h;当视野中没有猎物智能体且执行动作策略后视野中仍没有猎物智能体时,基础奖励值减n′*h;其中,h为正整数,n和n′均为小于h的正整数,M≥1。
更进一步地,所述MADDPG模型的奖励函数的最终奖励值为:
按照本发明的另一个方面,提供了一种类脑连续学习协同围捕系统,包括多个围捕智能体,每一围捕智能体执行如上所述的类脑连续学习协同围捕方法。
按照本发明的另一个方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如上所述的类脑连续学习协同围捕方法。
总体而言,通过本发明所构思的以上技术方案,能够取得以下有益效果:提出一种类脑连续学习协同围捕方法,为围捕智能体配置相机和多个超声波传感器,通过相机图像感知视野内其它智能体的位置,通过超声波传感器实时更新避障测度,并结合多通道感知机制和强化学习算法,使得围捕智能体具备类脑多通道感知优势,能够完整实时地识别环境状态;通过感知-决策-控制过程的融合,使得围捕智能体能够凭借相机图像数据和超声波测距数据,在状态空间完成对猎物和障碍物的识别、策略优化以及运动控制等一系列过程,提高了智能体的决策避障能力,增加了障碍环境下的围捕效率,适用于用来制备具有自适应于复杂环境、混合协作(兼具合作协同与竞争躲避)等能力的智能机器人系统。
附图说明
图1为本发明实施例提供的类脑连续学习协同围捕方法的流程图。
图2为本发明实施例提供的多机器人协同围捕系统的感知-决策-控制一体化框架。
图3为本发明实施例提供的类脑多通道融合环境感知和类脑连续学习的过程图。
图4为本发明实施例提供的利用MADDPG模型生成动作策略的过程图。
图5A、图5B分别为本发明实施例提供的多机器人协同围捕仿真环境、智能体原型。
图6A、图6B、图6C分别为图5所示仿真环境中三个围捕智能体学习到的动作策略。
图7A、图7B、图7C分别为图5所示仿真环境在场景一中的围捕结束位置、运动轨迹、包围圈。
图8A、图8B、图8C分别为图5所示仿真环境在场景二中的围捕结束位置、运动轨迹、包围圈。
图9A、图9B、图9C分别为图5所示仿真环境在场景三中的围捕结束位置、运动轨迹、包围圈。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
在本发明中,本发明及附图中的术语“第一”、“第二”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
图1为本发明实施例提供的类脑连续学习协同围捕方法的流程图。参阅图1,结合图2-图9C,对本实施例中类脑连续学习协同围捕方法进行详细说明。
类脑连续学习协同围捕方法的应用场景如图5A所示,用于多个围捕智能体围捕猎物智能体的场景。以图5A所示应用场景为例,初始围捕场景是将正方形围捕区域分为四个部分,随机生成四组位置坐标及朝向角度,分配给三个围捕智能体和一个猎物智能体(如机器人)。每一围捕智能体中配置有相机和多个超声波传感器,如图5B所示。优选地,各智能体车身前方设置多个(如8个)超声波传感器,除此之外,围捕智能体正前方设置一个相机,在各智能体的机身分别配置不同颜色的柱体以进行区分。该类脑连续学习协同围捕方法用于任一围捕智能体,为其构建的感知-决策-控制一体化框架如图2所示,整体执行过程如图3所示,方法包括操作S1-操作S4。
操作S1,获取相机拍摄的图像数据并识别图像数据中的其它智能体,将识别到的其它智能体划分为其它围捕智能体和猎物智能体。
通过相机和超声波传感器耦合,构成类脑多通道融合感知。每个围捕智能体配置有一个相机和多个超声波传感器,可以有效感知环境。围捕智能体例如为智能车等设备。基于相机采集的图像数据,设计目标识别网络识别同伴机器人(即其它围捕智能体)及围捕目标(即猎物智能体),获取其方位信息和距离信息;基于超声波传感器的测距数据,设计避障紧急性测度,进行避障设置;基于图像数据的方位信息和距离信息,以及基于超声波传感器的避障信息,在围捕智能体的状态空间进行融合。
本实施例中,例如在各围捕智能体的机身分别配置不同颜色的柱体以进行区分,操作S1中,获取到相机拍摄的图像数据后,识别图像数据中存在的其它智能体(即围捕智能体视野范围内的其它智能体),并根据颜色不同将识别到的其它智能体划分为其它围捕智能体和猎物智能体。需要说明的是,某一时刻,围捕智能体视野范围内可能不存在其它智能体,或者仅存在某一种其它智能体。也可以采用其它方式如卷积神经网络,识别图像数据中的其它智能体并将识别到的其它智能体划分为其它围捕智能体和猎物智能体。
操作S2,对于每一其它智能体,为其在图像数据中对应区域的各像素赋予设定值,根据值为设定值的所有像素的个数、中心列位置分别确定其它智能体相对于围捕智能体的第一距离、方位角。
以由N个围捕智能体和1个猎物智能体形成的实际围捕场景为例,N为不小于3的正整数,对于任一围捕智能体而言,其从相机的图像数据和超声波传感器的测距数据中提取环境状态变量,构建其它各围捕智能体和猎物智能体的观察空间。对于相机的图像数据而言,构建目标识别器以分类不同智能体,并衡量其它各智能体在该围捕智能体自身视野中的距离远近和角度偏向。
对于图像数据中不存在的其它围捕智能体或猎物智能体,相应的状态量例如赋值为-1。对于图像中存在的其它智能体,假设图像数据的像素大小为[128,256],为RGB图像,对于每一其它智能体,为其在图像数据中对应区域的各像素赋予设定值,设定值例如为255,根据值为255的像素的个数确定该其它智能体相对于围捕智能体的第一距离,根据值为255的像素的中心列位置分别确定其它智能体相对于围捕智能体的方位角。
根据本发明的实施例,第一距离与值为设定值的所有像素的个数负相关,值为设定值的所有像素的个数越大,第一距离越小。具体地,对于图像中存在的其它智能体,例如将其值为255的像素的个数除以5000作为第一距离的衡量,比值越大,第一距离越小。另外,对于任一其它智能体而言,可以获得值为255的像素的行列位置,其中心列位置相当于该颜色其它智能体在视野中的方位。由此,获得其它智能体的2N个状态量。
操作S3,获取各超声波传感器探测到的其它智能体相对于围捕智能体的第二距离,并在任一超声波传感器探测到的第二距离小于距离阈值,或者,所有超声波传感器探测到的第二距离均不小于距离阈值时,更新当前的避障测度。
对于超声波测距数据,可以直接采用距离函数进行避障。超声波传感器例如通过距离函数可以直接获取其所在围捕智能体的前方有无障碍物的判断标志,以及到障碍物的最近距离。
优选地,操作S3中,循环读取各超声波传感器探测到的其它智能体相对于围捕智能体的第二距离,只有当探测距离小于距离阈值时才考虑避障。避障测度越小,意味着围捕智能体离障碍物越近,越需要改变方向进行避障。
根据本发明的实施例,避障测度的具体更新方式为:当所有超声波传感器探测到的第二距离均不小于距离阈值时,将避障测度更新为0;当任一超声波传感器探测到的第二距离小于距离阈值时,将避障测度更新为:
其中,为更新后的避障测度,为更新前的避障测度,为与奖励函数相适配的
系数,为第二距离,为距离阈值。该避障测度为围捕智能体获得的第2N+1个状态量。基
于上述操作S1-操作S3,每个围捕智能体的状态空间为2N+1维,前2N维为围捕智能体到其它
智能体的距离和方位,最后一维为围捕智能体避障紧急性测度。
操作S4,将各其它智能体相对于围捕智能体的第一距离、方位角以及当前的避障测度输入训练好的MADDPG模型,得到相应的动作策略,并根据动作策略控制围捕智能体动作以围捕猎物智能体。
围捕智能体的动作策略由上述基于多通道感知的类脑连续学习到的状态空间计算得到。具体地,围捕智能体将获得的2N+1个状态量输入训练好的MADDPG模型,输出相应的动作策略。根据本发明的实施例,MADDPG模型采用Actor-Critic框架,在执行围捕任务之前,需要对MADDPG模型进行训练,具体地:采用基于多个不同子策略的训练方法,以整体目标函数关于各子策略的策略参数的梯度收敛为目标,训练MADDPG模型。MADDPG模型的训练过程如图4所示。
本实施例中,结合避障行为构建动作空间,形成动作策略。根据本发明的实施例,动作策略包括:前进、以第一角度左转、以第二角度左转、以第一角度右转、以第二角度右转和停止,构成智能体的六维动作空间,第一角度小于第二角度。需要说明的是,智能体的前进动作不是单纯往前走,而是包含避障行为的动作,即,当离障碍物很近时,智能体进行该动作会产生避障效果,当检测不到障碍物时,智能体进行该动作会产生前进效果。优选地,第一角度例如为30º,第二角度例如为50 º。
本实施例中,综合动作策略和避障测度为MADDPG模型设置奖励函数。一方面,在围捕过程中设置许多小额度奖励,引导围捕智能体移动并寻找猎物智能体。基于此,为MADDPG模型设计的奖励策略为:当视野中出现猎物智能体且选择趋近猎物智能体的动作策略时,基础奖励值加h;当执行趋近猎物智能体的动作策略后与猎物智能体之间的距离变小时,基础奖励值加n*h;当猎物智能体与M个围捕智能体之间的距离均小于距离阈值时,M个围捕智能体的基础奖励值均加M*h*h;当视野中没有猎物智能体且执行动作策略后视野中仍没有猎物智能体时,基础奖励值减n′*h;其中,h为正整数,n和n′均为小于h的正整数,M≥1。
具体地,例如当围捕智能体的视野中出现猎物智能体,且选择前进策略时,基础奖励值加10;当猎物智能体在围捕智能体视野中偏左,且围捕智能体选择左转策略,基础奖励值加10;当猎物智能体在围捕智能体视野中偏右,且围捕智能体选择右转策略,基础奖励值加10;当执行趋近猎物智能体的动作策略后与猎物智能体之间的距离变小时,基础奖励值加8*10;当猎物智能体在M(M=1,2,…,N)个围捕智能体视野中心位置,且距离均不超过距离阈值时,这M个围捕智能体的基础奖励值均加M*h*h,如果M=N,围捕成功;如果猎物智能体不在围捕智能体视野中,且围捕智能体执行动作策略后视野中仍没有猎物智能体时,基础奖励值减2*10,作为惩罚。
另一方面,考虑障碍物情况,每一步动作后,围捕智能体的奖励在上述基础奖惩策略基础上,加上避障测度。为了匹配上述基础奖励值,一般采用避障测度*10的形式,由此,为MADDPG模型的奖励函数的最终奖励值为:
对于MADDPG模型中的Action网络,当前状态下,围捕智能体i根据决策(即动作
策略)选择行为,环境生成一个奖励反馈给围捕智能体i,同时根据状态转移函数生
成下一个状态。每一个围捕智能体i的更新目标是最大化耦合累计奖励,
其中,为折扣因子,为回合步长,奖励为上述最终奖励值计算方式得到的。围捕智能
体i期望回报的梯度为:
为克服竞争智能体策略变化的影响,使用基于个不同子策略的训练方法,增加智
能体的鲁棒性。在每一个回合中,智能体i随机选取一个特定的子策略去执行。假设策略
由个不同子策略组成,记作。智能体i学习的目标是最大化下列整体目标函数:
其中,为第个子策略的策略参数,,为子策略的总个数,为
整体目标函数,为各子策略集成的连续策略,为关于的梯度,为状态
空间,为动作空间,为第个子策略的经验池,为满足状态-动作对条件
的奖励函数期望,为第个子策略,为状态信息,为状态信息确定的情况下选择动作的概率,为关于的梯度;为连
续策略下的中心化动作价值函数,其输入为,表示识别到的其它
智能体的动作;为以为输入时子策略输出的动作,为关于的梯度。
本实施例中,例如采用Paddle/PARL/MADDPG框架实现。训练模型中,假定三个围捕智能体的速度相等,且与猎物智能体的速度相同,训练实验含4500个回合,每个回合步数为25步。MADDPG算法训练相关参数为:critic模型的学习率critic_lr = 0.01;actor模型的学习率actor_lr=0.01;奖励折扣因子gamma=0.95、batch_size=128;一个回合的最大步数为25,每一步的仿真时间为1s。另外,训练用到贪心算法(epsilon-greedy),参数设置为epsilon=0.8。当随机数小于epsilon时,根据决策网络输出的概率分布采样动作;否则,等概率采样动作,增加智能体的探索性。
本实施例中,采用MADDPG算法中的Actor-Critic框架和集中训练-分散执行的模式,每个智能体设置集中式Critic网络,用于接受全局信息。其优点是无需建立现实通信规则,能够解决环境非平稳性问题,且算法容易收敛至全局最优解,适用于有限场景下多智能体协同围捕任务。
图6A、图6B、图6C分别示出了通过本实施例中类脑连续学习协同围捕方法,三个围捕智能体获得的最优动作策略。参阅图6A,围捕智能体1学习到的动作策略为:当视野中没有猎物智能体时,执行第一角度右转动作,当视野中出现猎物智能体时,执行前进动作。参阅图6B,围捕智能体2学习到的动作策略则是几乎一直执行第一角度左转动作。参阅图6C,围捕智能体3学习到的动作策略是:当视野中没有猎物智能体时,执行第二角度右转动作,当视野中出现猎物智能体时,执行前进动作。测试仿真运行50个回合,围捕智能体1的平均奖励为-63.23251736,围捕智能体2的平均奖励为-380.0931714,围捕智能体3的平均奖励为33.20684717,总奖励平均值为-410.1188416,可见围捕智能体3的策略相对更优。
场景一:围捕智能体速度为猎物智能体速度的3倍,且猎物智能体运行策略为直行不避障,此测试场景记为3speed_forward。采用本发明实施例中类脑连续学习协同围捕方法,围捕成功率约为90%。实验50个回合,每个回合平均步数为23.22。某次围捕成功时四个智能体的结束位置和运动轨迹如图7A和图7B所示;将每次围捕成功智能体的结束位置画在一起,如图7C所示,三个围捕智能体近似分布在以猎物智能体为中心、半径不超过1.0m的圆周以内,形成了一个包围圈。
场景二:围捕智能体速度为猎物智能体速度的3倍,但猎物智能体更灵活,其运行策略为直行且能避障,此测试场景记为3speed_ actuation。采用本发明实施例中类脑连续学习协同围捕方法,实验50个回合,围捕成功率约为78%。某次围捕成功时四个智能体的结束位置和运动轨迹如图8A和图8B所示;将每次围捕成功智能体的结束位置画在一起,如图8C所示,可见围捕成功。相比场景一,猎物智能体更具灵活性,可以自主躲避,增加了围捕难度,导致围捕成功率变低。
场景三:围捕智能体速度为猎物智能体速度的2倍,猎物智能体运行策略为直行,此测试场景记为2speed_forward。采用本发明实施例中类脑连续学习协同围捕方法,同样实验50个回合,围捕成功率约为50%。某次围捕成功时四个智能体的结束位置和运动轨迹如图9A和图9B所示;将每次围捕成功智能体的结束位置画在一起,如图9C所示,可见围捕成功。但相比场景一,由于围捕智能体速度变慢,围捕成功率变低。
综合上述实验结果可见,猎物智能体的动作策略越“智能”,如能自主避障,或围捕智能体的速度越慢,都会导致围捕成功率降低,这些现象与人类的先验知识相符。另外,三个包围圈示意图表明,不同场景围捕成功时,围捕智能体的结束位置都在以猎物智能体为中心的特定圆周内,验证了本实施例中类脑连续学习协同围捕方法的合理性,及其在不同场景下的可扩展性。
本发明实施例还提供了一种类脑连续学习协同围捕系统,包括多个围捕智能体。每个围捕智能体执行如图1-图9C所示的类脑连续学习协同围捕方法。
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序。该程序被处理器执行时实现如图1-图9C所示的类脑连续学习协同围捕方法。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种类脑连续学习协同围捕方法,用于围捕智能体,其特征在于,所述围捕智能体配置有相机和多个超声波传感器,方法包括:
获取相机拍摄的图像数据并识别所述图像数据中的其它智能体,将识别到的其它智能体划分为其它围捕智能体和猎物智能体;
对于每一其它智能体,为其在图像数据中对应区域的各像素赋予设定值,根据值为设定值的所有像素的个数、中心列位置分别确定所述其它智能体相对于所述围捕智能体的第一距离、方位角;
获取各超声波传感器探测到的其它智能体相对于所述围捕智能体的第二距离,并在任一超声波传感器探测到的第二距离小于距离阈值,或者,所有超声波传感器探测到的第二距离均不小于距离阈值时,更新当前的避障测度;
将各所述其它智能体相对于所述围捕智能体的第一距离、方位角以及当前的避障测度输入训练好的MADDPG模型,得到相应的动作策略,并根据所述动作策略控制所述围捕智能体动作以围捕所述猎物智能体。
3.如权利要求1所述的类脑连续学习协同围捕方法,其特征在于,所述第一距离与值为设定值的所有像素的个数负相关。
4.如权利要求1所述的类脑连续学习协同围捕方法,其特征在于,所述MADDPG模型采用Actor-Critic框架,方法还包括:采用基于多个不同子策略的训练方法,以整体目标函数关于各子策略的策略参数的梯度收敛为目标,训练所述MADDPG模型。
6.如权利要求1所述的类脑连续学习协同围捕方法,其特征在于,所述动作策略包括:前进、以第一角度左转、以第二角度左转、以第一角度右转、以第二角度右转和停止,所述第一角度小于所述第二角度。
7.如权利要求1-6任一项所述的类脑连续学习协同围捕方法,其特征在于,所述MADDPG模型的奖励策略为:当视野中出现猎物智能体且选择趋近猎物智能体的动作策略时,基础奖励值加h;当执行趋近猎物智能体的动作策略后与猎物智能体之间的距离变小时,基础奖励值加n*h;当猎物智能体与M个围捕智能体之间的距离均小于距离阈值时,M个围捕智能体的基础奖励值均加M*h*h;当视野中没有猎物智能体且执行动作策略后视野中仍没有猎物智能体时,基础奖励值减n′*h;其中,h为正整数,n和n′均为小于h的正整数,M≥1。
9.一种类脑连续学习协同围捕系统,包括多个围捕智能体,其特征在于,每一围捕智能体执行如权利要求1-8任一项所述的类脑连续学习协同围捕方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-8中任一项所述的类脑连续学习协同围捕方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210924583.1A CN115019185B (zh) | 2022-08-03 | 2022-08-03 | 类脑连续学习协同围捕方法、系统及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210924583.1A CN115019185B (zh) | 2022-08-03 | 2022-08-03 | 类脑连续学习协同围捕方法、系统及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115019185A true CN115019185A (zh) | 2022-09-06 |
CN115019185B CN115019185B (zh) | 2022-10-21 |
Family
ID=83065481
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210924583.1A Active CN115019185B (zh) | 2022-08-03 | 2022-08-03 | 类脑连续学习协同围捕方法、系统及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115019185B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115249245A (zh) * | 2022-09-22 | 2022-10-28 | 深圳华声医疗技术股份有限公司 | 超声成像参数优化方法、装置、计算机设备及存储介质 |
CN117521715A (zh) * | 2023-11-30 | 2024-02-06 | 中科南京智能技术研究院 | 一种智能体类脑局部避障方法、装置、存储介质和设备 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105182973A (zh) * | 2015-09-08 | 2015-12-23 | 郑州大学 | 多机器人追捕者围捕单移动目标的自适应围捕装置与方法 |
CN108197698A (zh) * | 2017-12-13 | 2018-06-22 | 中国科学院自动化研究所 | 基于多模态融合的多脑区协同自主决策方法 |
CN112180724A (zh) * | 2020-09-25 | 2021-01-05 | 中国人民解放军军事科学院国防科技创新研究院 | 一种在干扰条件下多智能体协同合作的训练方法及系统 |
CN113156954A (zh) * | 2021-04-25 | 2021-07-23 | 电子科技大学 | 一种基于增强学习的多智能体集群避障方法 |
CN113268078A (zh) * | 2021-04-20 | 2021-08-17 | 四川大学 | 一种无人机群自适应环境的目标追踪围捕方法 |
CN113723012A (zh) * | 2021-09-10 | 2021-11-30 | 上海交通大学 | 一种基于多智能体生成对抗模仿安全学习的协作围捕方法 |
CN113821041A (zh) * | 2021-10-09 | 2021-12-21 | 中山大学 | 一种多机器人协同导航与避障的方法 |
CN113900445A (zh) * | 2021-10-13 | 2022-01-07 | 厦门渊亭信息科技有限公司 | 基于多智能体强化学习的无人机协同控制训练方法及系统 |
CN114721424A (zh) * | 2022-03-18 | 2022-07-08 | 中国人民解放军国防科技大学 | 一种多无人机协同对抗方法、系统以及存储介质 |
-
2022
- 2022-08-03 CN CN202210924583.1A patent/CN115019185B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105182973A (zh) * | 2015-09-08 | 2015-12-23 | 郑州大学 | 多机器人追捕者围捕单移动目标的自适应围捕装置与方法 |
CN108197698A (zh) * | 2017-12-13 | 2018-06-22 | 中国科学院自动化研究所 | 基于多模态融合的多脑区协同自主决策方法 |
CN112180724A (zh) * | 2020-09-25 | 2021-01-05 | 中国人民解放军军事科学院国防科技创新研究院 | 一种在干扰条件下多智能体协同合作的训练方法及系统 |
CN113268078A (zh) * | 2021-04-20 | 2021-08-17 | 四川大学 | 一种无人机群自适应环境的目标追踪围捕方法 |
CN113156954A (zh) * | 2021-04-25 | 2021-07-23 | 电子科技大学 | 一种基于增强学习的多智能体集群避障方法 |
CN113723012A (zh) * | 2021-09-10 | 2021-11-30 | 上海交通大学 | 一种基于多智能体生成对抗模仿安全学习的协作围捕方法 |
CN113821041A (zh) * | 2021-10-09 | 2021-12-21 | 中山大学 | 一种多机器人协同导航与避障的方法 |
CN113900445A (zh) * | 2021-10-13 | 2022-01-07 | 厦门渊亭信息科技有限公司 | 基于多智能体强化学习的无人机协同控制训练方法及系统 |
CN114721424A (zh) * | 2022-03-18 | 2022-07-08 | 中国人民解放军国防科技大学 | 一种多无人机协同对抗方法、系统以及存储介质 |
Non-Patent Citations (2)
Title |
---|
马俊冲: "基于多机器人系统的多目标围捕协同控制问题研究", 《中国优秀硕士学位论文全文数据库(信息科技辑)》 * |
黄思宇: "深度强化学习在围捕逃逸问题中的应用研究", 《《中国优秀硕士学位论文全文数据库(信息科技辑)》》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115249245A (zh) * | 2022-09-22 | 2022-10-28 | 深圳华声医疗技术股份有限公司 | 超声成像参数优化方法、装置、计算机设备及存储介质 |
CN115249245B (zh) * | 2022-09-22 | 2022-12-23 | 深圳华声医疗技术股份有限公司 | 超声成像参数优化方法、装置、计算机设备及存储介质 |
CN117521715A (zh) * | 2023-11-30 | 2024-02-06 | 中科南京智能技术研究院 | 一种智能体类脑局部避障方法、装置、存储介质和设备 |
Also Published As
Publication number | Publication date |
---|---|
CN115019185B (zh) | 2022-10-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115019185B (zh) | 类脑连续学习协同围捕方法、系统及介质 | |
Singla et al. | Memory-based deep reinforcement learning for obstacle avoidance in UAV with limited environment knowledge | |
Wang et al. | Learning to navigate through complex dynamic environment with modular deep reinforcement learning | |
Mishkin et al. | Benchmarking classic and learned navigation in complex 3d environments | |
US9579789B2 (en) | Apparatus and methods for training of robotic control arbitration | |
US7765029B2 (en) | Hybrid control device | |
CN107403426B (zh) | 一种目标物体检测方法及设备 | |
CN113900445A (zh) | 基于多智能体强化学习的无人机协同控制训练方法及系统 | |
CN110327624B (zh) | 一种基于课程强化学习的游戏跟随方法和系统 | |
CN111723931B (zh) | 一种多智能体对抗动作预测方法及装置 | |
CN110977966A (zh) | 一种基于虚拟场景训练的机器人避障方法 | |
Ma et al. | Learning to navigate in indoor environments: From memorizing to reasoning | |
CN112651486A (zh) | 一种提高maddpg算法收敛速度的方法及其应用 | |
Mun et al. | Occlusion-aware crowd navigation using people as sensors | |
Gromniak et al. | Deep reinforcement learning for mobile robot navigation | |
CN112987713B (zh) | 自动驾驶设备的控制方法、装置及存储介质 | |
JP2005078516A (ja) | 並列学習装置、並列学習方法及び並列学習プログラム | |
US20220305647A1 (en) | Future prediction, using stochastic adversarial based sampling, for robotic control and/or other purpose(s) | |
Desai et al. | Auxiliary tasks for efficient learning of point-goal navigation | |
CN115238870A (zh) | 一种集群机器人躲避抓捕的强化学习方法及系统 | |
Uchibe | Cooperative behavior acquisition by learning and evolution in a multi-agent environment for mobile robots | |
Kobelrausch et al. | Collision-Free Deep Reinforcement Learning for Mobile Robots using Crash-Prevention Policy | |
CN115439510B (zh) | 一种基于专家策略指导的主动目标跟踪方法及系统 | |
Kumar et al. | Benchmarking Deep Reinforcement Learning Algorithms for Vision-based Robotics | |
CN117826867B (zh) | 无人机集群路径规划方法、装置和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |