CN106843220B - 一种多Agent围捕-觅食行为控制方法 - Google Patents
一种多Agent围捕-觅食行为控制方法 Download PDFInfo
- Publication number
- CN106843220B CN106843220B CN201710107633.6A CN201710107633A CN106843220B CN 106843220 B CN106843220 B CN 106843220B CN 201710107633 A CN201710107633 A CN 201710107633A CN 106843220 B CN106843220 B CN 106843220B
- Authority
- CN
- China
- Prior art keywords
- seize
- agent
- prey
- surrounds
- angle
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 230000006870 function Effects 0.000 claims abstract description 21
- 230000006399 behavior Effects 0.000 claims abstract description 15
- 230000013016 learning Effects 0.000 claims abstract description 11
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 9
- 230000009471 action Effects 0.000 claims abstract description 7
- 230000000694 effects Effects 0.000 claims abstract description 5
- 239000000203 mixture Substances 0.000 claims description 4
- 230000011218 segmentation Effects 0.000 claims description 2
- 230000008569 process Effects 0.000 description 16
- 238000010586 diagram Methods 0.000 description 11
- 238000012549 training Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000004888 barrier function Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000011217 control strategy Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 230000019637 foraging behavior Effects 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0212—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
- G05D1/0223—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving speed control of the vehicle
Landscapes
- Engineering & Computer Science (AREA)
- Aviation & Aerospace Engineering (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Table Equipment (AREA)
- Agricultural Chemicals And Associated Chemicals (AREA)
Abstract
本发明涉及一种多Agent围捕‑觅食行为控制方法,包括以下步骤:1)对多Agent和猎物当前所处位置形成的状态空间进行划分;2)设计奖赏函数;3)根据步骤1)划分的状态空间及步骤2)的奖赏函数进行强化学习,控制各Agent进行相应的原子动作,实现对猎物的围捕,在满足围捕成功条件时停止,达到觅食效果。与现有技术相比,本发明具有围捕效率高等优点。
Description
技术领域
本发明涉及Agent围捕觅食技术,尤其是涉及一种多Agent围捕-觅食行为控制方法。
背景技术
多机器人系统作为分布式人工智能的一个非常重要的分支,具有容错性、鲁棒性强、分布性协调性等特点,近年来已成为人们广泛关注的热点。多机器人系统研究的主要问题包括群体结构、任务分配、通信方式、协作学习等。为了使得研究更具有在实际场景中的意义,研究者们集中对一些多机器人任务进行研究,包括编队协作、搜索、围捕等。
多机器人协作围捕是检验多机器人工作效率的有效方法之一。多机器人围捕过程就是利用三个或者三个以上的轮式机器人,首先协作寻找到环境中移动的一个目标机器人,然后通过运动过程中围在目标周围来达到围捕目标的目的,最后目标没有运行的出口后,任务结束。多机器人围捕可以称为Agent的觅食问题,即指机器人模仿生物体的一系列动作以达到觅食的效果。多机器人的围捕-觅食问题涉及到许多方面的内容,如机器人编队、状态空间的划分、机器人动作的划分、多机器人控制策略的结构。前人在研究多Agent系统的围捕问题时一般采用栅格法。栅格法将机器人的状态空间按位置进行划分,虽然划分简单易懂,然而由于其粗糙的离散化方式,使得其精度不高,另一方面,倘若加大离散化的精度,则会产生“维数灾难”。因此,有必要重新对状态空间进行划分,使用某种连续的策略来更好的表现机器人的围捕-觅食行为,同时减小状态空间的数量。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种多Agent围捕-觅食行为控制方法。
本发明的目的可以通过以下技术方案来实现:
一种多Agent围捕-觅食行为控制方法,包括以下步骤:
1)对多Agent和猎物当前所处位置形成的状态空间进行划分;
2)设计奖赏函数;
3)根据步骤1)划分的状态空间及步骤2)的奖赏函数进行强化学习,控制各Agent进行相应的原子动作,实现对猎物的围捕,在满足围捕成功条件时停止,达到觅食效果。
所述步骤1)中,对状态空间的划分具体为:
101)将n个Agent与猎物之间的角度进行划分;
102)将各Agent与猎物之间的距离进行离散分段。
所述将Agent与猎物之间的角度进行划分具体为:将两个Agent与猎物之间的夹角划分为如下表的10个状态
。
所述划分为非均匀状态划分,所述离散分段为非均匀划分。
所述步骤2)中,奖赏函数R为:
R=a*J+rn
其中,J为角度奖赏,J=G(θ)left+G(θ)right,G(θ)left为某一Agent的左夹角θleft对应的角度奖赏,G(θ)right为该Agent的右夹角θright对应的角度奖赏,rn为距离奖赏,a为J与rn之间的相对重要程度系数。
每个角度θ对应的角度奖赏表达式为:
所述距离奖赏rn通过以下表格获取:
d | 0~0.5m | 0.5~1.0m | 0.5~1.4m | 1.4~2.0m | 2.0~3.5m | 3.5~5.0m | >5.0m |
rn | 1.2 | 1.1 | 1.0 | 0.7 | 0.5 | 0.2 | 0 |
其中,d表示Agent与猎物之间的距离。
所述相对重要程度系数a在形成围捕包围圈与收缩包围圈两个任务中取值不同。
所述原子动作包括朝向猎物、向左偏π/4、向右偏π/4、向左偏π/2以及向右偏π/2。
所述围捕成功条件为:同时存在
a)猎物位于多Agent组成的凸平面内;
b)所有Agent与猎物之间形成的最大角度满足:
其中,θstr为允许的包围角误差;
c)所有Agent与猎物之间形成的最大距离dm满足:
dm≤Dstr
其中,Dstr为允许距离。
与现有技术相比,本发明具有以下优点:
1、本发明基于强化学习实现多Agent围捕-觅食,每个参与围捕的机器人可以通过知道自己相对整个群体的位置以及整个群体相对猎物的位置快速学习到该如何运动才能围捕到逃跑的个体,提高围捕效率。
2、本申请对状态空间进行了划分,巧妙地设计了动作与奖赏函数,使得学习过程能够在合理的时间收敛。
3、本申请进行状态空间划分时采用非均匀划分,有效提高精度和减小状态空间。
附图说明
图1是状态划分示意图;
图2是奖赏函数示意图;
图3是围捕条件示意图;
图4是围捕初始环境示意图;
图5是训练初期轨迹图,其中,(5a)为一种初期轨迹图,(5b)为另一种初期轨迹图;
图6是训练初期追捕成功示意图,其中,(6a)为一种追捕成功示意图,(6b)为另一种追捕成功示意图;
图7是训练后期形成包围图;
图8是训练后期保持包围图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
本实施例提供一种多Agent围捕-觅食行为控制方法,该方法基于强化学习算法,并设置了奖赏函数,提高机器人的学习效率。在利用Option方法改进的强化学习算法进行多Agent围捕时需要首先对状态空间进行离散化,多Agent的围捕问题中每个参与围捕的机器人需要知道自己相对整个群体的位置以及整个群体相对猎物的位置才能根据这些信息学习到该如何运动才能围捕到逃跑的个体。本发明方法包括以下步骤:
1)对多Agent(机器人)和猎物当前所处位置形成的状态空间进行划分;
2)设计奖赏函数;
3)根据步骤1)划分的状态空间及步骤2)的奖赏函数进行强化学习,控制各Agent进行相应的原子动作,实现对猎物的围捕,在满足围捕成功条件时停止,达到觅食效果。
1、状态空间划分与动作选择
对于状态空间的划分必须能够反映某个Agent与群体之间的位置关系,还应反映出个体与猎物之间的位置关系,这里设计了一种能够反映出围捕程度的状态空间划分:将各机器人与猎物之间的角度进行分割,为了节省状态空间加快收敛速度,采用非均匀状态划分。本发明将两个机器人与猎物之间的夹角划分为10个状态:
表1角度划分
注:其中j为left或right,i为Agent序号。
本实施例选用4个机器人进行联合围捕,而围捕的最佳情况就是4个机器人均匀分布在猎物周围360°的范围内,故每个机器人与和它相邻的机器人之间的夹角最佳为90°。在围捕过程中由于猎物的智能性以及猎物自身的高速性,包围圈细微的漏洞都可能使猎物逃脱,因此对于在90°附近的状态空间需要做出细致的划分。但是当猎物处于包围圈外时,会出现相邻机器人之间的角度大于180°的情况,此时机器人需要移动使猎物首先进入包围圈的凸平面,因此对于角度的要求没有那么苛刻。本发明将大于180°的情况设为一种状态即是考虑了减小状态空间来加速收敛过程。
如图1所示,为了确定每个Agent相对整体的位置,即包围情况,必须使用左右两个相邻角度来定位某个机器人所处的位置。对于Agent i来说知道了左右两个夹角θleft和θright就可以知道自身所处的位置与包围情况之间的关系,从而选择合适的动作来更严密地包围猎物。夹角θleft和θright划分如表1所示,各有10种状态,因此整个角度划分共有10×10=100个状态。
只知道角度对于捕捉到猎物来说是不够的,还需要能够反映机器人与猎物之间的位置关系。将机器人与猎物之间的距离离散为7段,同样处于加大精度和减小状态空间的做法,这里采用非均匀划分:
表2距离划分
d<sub>i</sub> | 0~0.5m | 0.5~1.0m | 0.5~1.4m | 1.4~2.0m | 2.0~3.5m | 3.5~5.0m | >5.0m |
注:其中di为第i个Agent到猎物的距离。
这样一来每个机器人的状态空间都是由自身与猎物之间的包围位置关系(共100个状态:左边角度10个×右边角度10个)×自身与猎物之间的位置关系(共7个状态)=700个状态组成。由于这样的策略既表示了自身的位置关系,又反映了团体的包围信息,故不论Agent的数量如何增多,状态空间不会再增长,由此便解决了维数灾难问题。
在动作选择方面我们回归到机器人的原子动作,即将Agent的动作分为朝向猎物,向左偏π/4,向右偏π/4,向左偏π/2,向右偏π/2这五种。通常状况下动作还应该包括与朝向猎物相反的四个方向,但由于边界条件的限制,向后的动作很容易自使系统陷入死区,严重降低收敛速度。
2、奖赏函数的设计
强化学习中另一个难点就是奖赏函数的设计,只有恰当的设置奖赏函数,算法才能收敛。通常情况下奖赏函数设定为在吸收态给予较大的立即奖赏,而其他状态设定为0。这样可以使得Agent自主学习到完成目标的策略。然而由于本发明的任务较为复杂,如果仅仅采用吸收态奖赏的方案可能会使算法的收敛时间变的很长,这里引入过程奖赏的概念。所谓过程奖赏与吸收态奖赏可形象的比喻如下:吸收态奖赏就像远古人类在围猎时只根据能否捕到猎物来判断自己策略的好坏;而过程奖赏就好像现代人类将自己的知识传授给下一代的过程,即不仅仅看结果的好坏,更重要的是学习的过程中每一步是否到位。
在本发明中,将整个围捕过程分为三个大的部分,即漫游寻找、围捕和运送,漫游寻找属于随机过程,运送属于确定过程,因此重点研究围捕过程,即发现目标时多Agent如何快速成功的将其围捕。对于围捕过程大致可分为两个Option,即形成包围圈与缩小包围圈。对不同过程的设置不同的奖赏函数是整个算法收敛的关键。
在形成包围圈阶段,每个机器人首先计算自己的θleft与θright,并依据下式计算每个θ的奖赏:
分别将θleft与θright的奖赏值记作G(θ)left和G(θ)right,则总的角度奖赏为:
J=G(θ)left+G(θ)right (2)
另一方面,还需要根据个体和猎物之间的距离定义奖赏函数来激励机器人靠近目标:
表3距离奖赏函数
d | 0~0.5m | 0.5~1.0m | 0.5~1.4m | 1.4~2.0m | 2.0~3.5m | 3.5~5.0m | >5.0m |
rn | 1.2 | 1.1 | 1.0 | 0.7 | 0.5 | 0.2 | 0 |
所以,总奖赏函数R为:
R=a*J+rn (3)
其中,a为J与rn之间的相对重要程度系数,在形成围捕与收缩包围圈两个任务中并不相同。本实施例中设定:当处于形成包围圈时,a为2,当处于收缩时,a为1。
另外,当围捕成功时,给予额外立即奖赏10。
3、围捕成功条件
机器人对于猎物的围捕成功条件定义为:
1)猎物位于机器人组成的凸平面内(这里严格限定为凸平面,凹平面尚不足以围捕)。
2)所有机器人与猎物之间形成的最大角度满足如下条件:
其中θstr为允许的包围角误差。
3)机器人与猎物之间形成的最大距离dm满足如下条件:
dm≤Dstr (5)
其中Dstr为允许距离。
图4给出了在有障碍物的情况下围捕任务的初始界面。图5为在学习过程的初期机器人的轨迹图,由图可以看到在初期机器人的轨迹凌乱,并没有能够形成对猎物的围捕,大多数情况下都是集体在追逐猎物。图6为训练初期在捕捉到猎物时的图像,在训练初期机器人在捕捉猎物时都是将猎物逼到墙角(如图中的右下角和左上角),这样的捕捉在本实验中被认为是无效的,因为实际的应用中(如公海缉私和导弹防御),环境是开放的且不存在边界。因此训练的目的是将高速运动的物体在仿真环境中间围住。
如图7为经过成百次的训练后机器人在无障碍物的情况下的围捕情况。由图可见经过大量的迭代训练,机器人形成围捕的非常迅速,没有了训练初期凌乱的网络,而是直奔主题,对目标形成包围。图8为训练后期再形成包围圈之后保持包围的图像,形成包围之后由于猎物也具有一定的智能性,故如果不能保持住包围圈,则猎物又可能突破包围。从图8可看出,不论猎物采取什么方向逃跑,机器人总是能够及时的调整队形,包围住猎物,所以其轨迹如同圆形一般,将猎物牢牢地包围在中间。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。
Claims (9)
1.一种多Agent围捕-觅食行为控制方法,其特征在于,包括以下步骤:
1)对多Agent和猎物当前所处位置形成的状态空间进行划分;
2)设计奖赏函数;
3)根据步骤1)划分的状态空间及步骤2)的奖赏函数进行强化学习,控制各Agent进行相应的原子动作,实现对猎物的围捕,在满足围捕成功条件时停止,达到觅食效果;
所述步骤1)中,对状态空间的划分具体为:
101)将Agent与猎物之间的角度进行划分;
102)将各Agent与猎物之间的距离进行离散分段。
2.根据权利要求1所述的多Agent围捕-觅食行为控制方法,其特征在于,所述将Agent与猎物之间的角度进行划分具体为:将两个Agent与猎物之间的夹角划分为如下表的10个状态
。
3.根据权利要求1所述的多Agent围捕-觅食行为控制方法,其特征在于,所述划分为非均匀状态划分,所述离散分段为非均匀划分。
4.根据权利要求1所述的多Agent围捕-觅食行为控制方法,其特征在于,所述步骤2)中,奖赏函数R为:
R=a*J+rn
其中,J为角度奖赏,J=G(θ)left+G(θ)right,G(θ)left为某一Agent的左夹角θleft对应的角度奖赏,G(θ)right为该Agent的右夹角θright对应的角度奖赏,rn为距离奖赏,a为J与rn之间的相对重要程度系数。
5.根据权利要求4所述的多Agent围捕-觅食行为控制方法,其特征在于,每个角度θ对应的角度奖赏表达式为:
6.根据权利要求4所述的多Agent围捕-觅食行为控制方法,其特征在于,所述距离奖赏rn通过以下表格获取:
其中,d表示Agent与猎物之间的距离。
7.根据权利要求4所述的多Agent围捕-觅食行为控制方法,其特征在于,所述相对重要程度系数a在形成围捕包围圈与收缩包围圈两个任务中取值不同。
8.根据权利要求1所述的多Agent围捕-觅食行为控制方法,其特征在于,所述原子动作包括朝向猎物、向左偏π/4、向右偏π/4、向左偏π/2以及向右偏π/2。
9.根据权利要求1所述的多Agent围捕-觅食行为控制方法,其特征在于,所述围捕成功条件为:同时存在
a)猎物位于多Agent组成的凸平面内;
b)所有Agent与猎物之间形成的最大角度满足:
其中,θstr为允许的包围角误差;
c)所有Agent与猎物之间形成的最大距离dm满足:
dm≤Dstr
其中,Dstr为允许距离。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710107633.6A CN106843220B (zh) | 2017-02-27 | 2017-02-27 | 一种多Agent围捕-觅食行为控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710107633.6A CN106843220B (zh) | 2017-02-27 | 2017-02-27 | 一种多Agent围捕-觅食行为控制方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106843220A CN106843220A (zh) | 2017-06-13 |
CN106843220B true CN106843220B (zh) | 2019-10-18 |
Family
ID=59134292
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710107633.6A Active CN106843220B (zh) | 2017-02-27 | 2017-02-27 | 一种多Agent围捕-觅食行为控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106843220B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107831780B (zh) * | 2017-10-24 | 2020-09-22 | 佛山科学技术学院 | 一种基于模拟退火思想的多机器人合作围捕方法 |
CN109079792A (zh) * | 2018-09-05 | 2018-12-25 | 顺德职业技术学院 | 一种基于多机器人的目标围捕方法及系统 |
CN109116854B (zh) * | 2018-09-16 | 2021-03-12 | 南京大学 | 一种基于强化学习的多组机器人协作控制方法及控制系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104942807A (zh) * | 2015-04-16 | 2015-09-30 | 上海大学 | 基于扩展式合作博弈的多机器人围捕目标方法 |
CN105093934A (zh) * | 2015-08-17 | 2015-11-25 | 哈尔滨工业大学 | 考虑干扰与模型不确定性的多机器人系统分布式有限时间跟踪控制方法 |
CN105182973A (zh) * | 2015-09-08 | 2015-12-23 | 郑州大学 | 多机器人追捕者围捕单移动目标的自适应围捕装置与方法 |
CN105487544A (zh) * | 2016-01-18 | 2016-04-13 | 沈阳工业大学 | 基于模糊推理系统的多机器人角度控制围捕方法 |
CN105843227A (zh) * | 2016-04-15 | 2016-08-10 | 上海大学 | 一种基于任务密集度动态调整的多机器人协作围捕任务分配方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102868972B (zh) * | 2012-09-05 | 2016-04-27 | 河海大学常州校区 | 基于改进q学习算法的物联网错误传感器节点定位方法 |
US20150310068A1 (en) * | 2014-04-29 | 2015-10-29 | Catalyst Repository Systems, Inc. | Reinforcement Learning Based Document Coding |
CN104680264B (zh) * | 2015-03-27 | 2017-09-22 | 青岛大学 | 一种基于多智能体强化学习的运输车路径优化方法 |
CN105740644B (zh) * | 2016-03-24 | 2018-04-13 | 苏州大学 | 一种基于模型学习的清洁机器人最优目标路径规划方法 |
CN106358203A (zh) * | 2016-08-30 | 2017-01-25 | 湖南大学 | 一种分布式认知无线传感器网络中基于q学习的频谱分配方法 |
-
2017
- 2017-02-27 CN CN201710107633.6A patent/CN106843220B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104942807A (zh) * | 2015-04-16 | 2015-09-30 | 上海大学 | 基于扩展式合作博弈的多机器人围捕目标方法 |
CN105093934A (zh) * | 2015-08-17 | 2015-11-25 | 哈尔滨工业大学 | 考虑干扰与模型不确定性的多机器人系统分布式有限时间跟踪控制方法 |
CN105182973A (zh) * | 2015-09-08 | 2015-12-23 | 郑州大学 | 多机器人追捕者围捕单移动目标的自适应围捕装置与方法 |
CN105487544A (zh) * | 2016-01-18 | 2016-04-13 | 沈阳工业大学 | 基于模糊推理系统的多机器人角度控制围捕方法 |
CN105843227A (zh) * | 2016-04-15 | 2016-08-10 | 上海大学 | 一种基于任务密集度动态调整的多机器人协作围捕任务分配方法 |
Non-Patent Citations (1)
Title |
---|
基于强化学习的多机器人围捕测量研究;王进军;《中国优秀硕士学位论文全文数据库 信息科技辑》;20130315(第3期);I140-300 * |
Also Published As
Publication number | Publication date |
---|---|
CN106843220A (zh) | 2017-06-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106843220B (zh) | 一种多Agent围捕-觅食行为控制方法 | |
Huang et al. | A multi-AUV cooperative hunting method in 3-D underwater environment with obstacle | |
Du et al. | Derivation and analysis of the analytical structures of the interval type-2 fuzzy-PI and PD controllers | |
CN105487544B (zh) | 基于模糊推理系统的多机器人角度控制围捕方法 | |
CN111476337B (zh) | 多级可变基因调控网络的群体机器人模式生成与转换方法 | |
CN109116724A (zh) | 一种基于粒子群改进细菌觅食算法的负荷频率控制方法 | |
CN105427241B (zh) | 一种大视场显示设备的畸变校正方法 | |
CN108121208A (zh) | 基于pso-abfo再热汽温pid控制器参数优化方法 | |
CN112633415A (zh) | 基于规则约束训练的无人机集群智能任务执行方法和装置 | |
Ye et al. | A new approach for resource scheduling with deep reinforcement learning | |
Chen et al. | Research on the approach of task decomposition in soccer robot system | |
CN106022472A (zh) | 一种嵌入式深度学习处理器 | |
CN107562074A (zh) | 一种面向mauvs围捕的任务分配方法 | |
CN110516857A (zh) | 一种死鱼捕捞路径规划方法、服务器及死鱼捕捞装置 | |
CN106611380A (zh) | 一种改进的帝国主义竞争算法求解作业车间调度问题 | |
CN106611235A (zh) | 一种改良的帝国主义竞争算法求解作业车间调度问题 | |
Huang et al. | A cooperative hunting algorithm of multi-AUV in 3-D dynamic environment | |
Huang et al. | A deep reinforcement learning approach to preserve connectivity for multi-robot systems | |
CN110262512A (zh) | 一种移动机器人脱离u形障碍陷阱的避障方法及系统 | |
Zhao et al. | Shuffled frog–leaping algorithm using elite opposition–based learning | |
CN116300964A (zh) | 一种集群围捕方法、系统及执行装置 | |
CN106826814A (zh) | 一种机器人的运动控制方法和运动控制系统 | |
Wang et al. | Research on multi-robots self-organizing cooperative pursuit algorithm based on Voronoi graph | |
Zhu | A multi-AUV searching algorithm based on neuron network with obstacle | |
Khosravi et al. | A New Hybrid of Evolutionary and Conventional Optimization Algorithms |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |