CN112827174B - 一种分布式多机器人目标搜索方法 - Google Patents
一种分布式多机器人目标搜索方法 Download PDFInfo
- Publication number
- CN112827174B CN112827174B CN202110158566.7A CN202110158566A CN112827174B CN 112827174 B CN112827174 B CN 112827174B CN 202110158566 A CN202110158566 A CN 202110158566A CN 112827174 B CN112827174 B CN 112827174B
- Authority
- CN
- China
- Prior art keywords
- robot
- node
- robots
- action
- map
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 230000009471 action Effects 0.000 claims abstract description 71
- 230000008569 process Effects 0.000 claims abstract description 7
- 238000011478 gradient descent method Methods 0.000 claims abstract description 6
- 238000004088 simulation Methods 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000005457 optimization Methods 0.000 claims description 5
- 238000004422 calculation algorithm Methods 0.000 abstract description 11
- 238000010845 search algorithm Methods 0.000 abstract description 4
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 8
- 238000011160 research Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 230000007613 environmental effect Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 238000000342 Monte Carlo simulation Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000013468 resource allocation Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- A—HUMAN NECESSITIES
- A63—SPORTS; GAMES; AMUSEMENTS
- A63F—CARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
- A63F13/00—Video games, i.e. games using an electronically generated display having two or more dimensions
- A63F13/55—Controlling game characters or game objects based on the game progress
- A63F13/56—Computing the motion of game characters with respect to other game characters, game objects or elements of the game scene, e.g. for simulating the behaviour of a group of virtual soldiers or for path finding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
-
- A—HUMAN NECESSITIES
- A63—SPORTS; GAMES; AMUSEMENTS
- A63F—CARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
- A63F2300/00—Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game
- A63F2300/60—Methods for processing data by generating or executing the game program
- A63F2300/6027—Methods for processing data by generating or executing the game program using adaptive systems learning from user actions, e.g. for skill level adjustment
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Multimedia (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Feedback Control In General (AREA)
- Manipulator (AREA)
Abstract
本发明属于人工智能技术领域,尤其涉及一种分布式多机器人目标搜索方法。本发明公开了一种知识驱动的基于分布式蒙特卡洛树搜索算法的机器人群体目标搜索方法,包括:根据专家知识将搜索目标之间的关联性带入算法,实时更新区域追踪奖励与探索奖励,基于分布式蒙特卡洛树搜索算法确定机器人协同搜索过程中的动作序列,改进的上限置信区间同时利帕雷托最优策略实现多目标优化,利用梯度下降法优化机器人动作序列概率分布,与其他机器人通信,更新机器人动作序列概率分布。解决了机器人群体在未知、动态环境下的群体协同目标搜索问题。
Description
技术领域
本发明属于人工智能技术领域,尤其涉及一种分布式多机器人目标搜索方法。
背景技术
现阶段多智能体的环境感知技术主要是被动地完成环境探测、目标识别与跟踪、实时定位与地图构建等,所涉及的智能体数目也大多为单个。此外,机器人群体的研究领域大多集中在机器人的群体集中式编队、机器人之间的通信机制、机器人之间的任务资源分配等方面,在机器人群体的协同目标搜索方面很少有研究,而移动目标搜索更是稀少。随着深度学习算法的飞速发展,热门的深度学习主要关注于文本、图像、视频等数据的处理,但是这一过程耗时长、数据收集成本高无法应用于实际的多机器人系统以及实时区域态势感知当中。在复杂大规模动态环境中,机器人需要与环境交互的信息量较多,不能很好地通过深度学习方法来进行主动目标感知。
现有的机器人目标搜索研究成果大部分集中于已知的静态环境,大多借助环境离散化,采用传统搜索算法,得到起点和终点之间的路径,比如:A*算法,蚁群算法,遗传算法,粒子群算法等。这些算法搜索速度慢,计算量大,在多约束条件下很难找到机器人群体的最优轨迹,且上述算法研究多集中于单个机器人应用,很少涉及群体机器人的协同搜索和感知。而且当区域环境未知且发生变化的时候,上述算法无法适应环境变化,必须重新计算,在区域态势感知、移动目标搜索方面有很大的局限性。
蒙特卡洛树搜索算法是一种利用蒙特卡洛方法作为评估的博弈树搜索算法,不需要引入过多的领域知识的同时,具有非常大的可扩展性,其采用的上限置信区间策略可以极大提升计算机博弈引擎水平,目前该算法多用于如围棋一类的博弈类游戏的开发,少数研究将蒙特卡洛算法应用于单个机器人在线规划,在机器人群体的目标搜索领域很少有研究成果。
发明内容
本发明的目的是提出一种分布式多机器人目标搜索方法,以克服现有技术中的不足,针对大规模且未知的非结构化复杂环境,引入专家知识,实时更新区域奖励值,并且利用蒙特卡洛树搜索算法解决多约束下群体机器人区域性系统快速轨迹规划和移动目标搜索。
本发明提出的分布式多机器人目标搜索方法,该方法根据已知目标,带入搜索目标之间的关联性,实时更新区域追踪奖励与探索奖励,基于分布式蒙特卡洛树搜索确定机器人协同搜索过程中的动作序列,对上限置信区间进行改进,同时利用利帕雷托最优策略实现多目标优化,采用梯度下降法优化机器人动作序列概率分布,与其他机器人通信,更新机器人动作序列概率分布,完成分布式多机器人的目标搜索。
本发明提出的一种分布式多机器人目标搜索方法,其优点是:
1、本发明的分布式多机器人目标搜索方法,是一种群体协同主动感知方法,其中引入专家知识或已知目标,在搜索到敌方目标的时候根据专家知识推测其他目标可能出现的区域并且更新奖励。
2、本发明方法中设置独特的奖励机制,在机器人搜索到目标后同时生成追踪奖励地图和探索奖励地图。使得奖励地图能够随时间实时变化,从而使得机器人群体能够适应环境变化继续作出优化决策,并且在追踪和探索中保持平衡,不需要重新开始计算。
3、本发明方法,能够首先由多机器人分布式同时群体协同搜索,在预算时间足够的情况下,能够演进学习,随着迭代次数增多搜索效果逐渐提高。本发明方法解决了机器人群体在未知、动态环境下的群体协同目标搜索问题。
附图说明
图1是本发明提出的一种分布式多机器人目标搜索方法的流程框图。
图2是本发明方法的一个实施例中涉及的蒙特卡洛搜索树的示意图。
具体实施方式
本发明提出的分布式多机器人目标搜索方法,根据已知目标,带入搜索目标之间的关联性,实时更新区域追踪奖励与探索奖励,基于分布式蒙特卡洛树搜索确定机器人协同搜索过程中的动作序列,对上限置信区间进行改进,同时利用利帕雷托最优策略实现多目标优化,采用梯度下降法优化机器人动作序列概率分布,与其他机器人通信,更新机器人动作序列概率分布,完成分布式多机器人的目标搜索。
本发明的分布式多机器人目标搜索方法的一个实施例中,其流程框图如图1所示,包括以下步骤:
(1)设定分布式多机器人中有R台机器人,机器人群{1,2,…,R},每台机器人独立规划自己的计划动作序列xr=(x1 r,x2 r,...),其中,x表示所有机器人的计划动作序列,将计划动作序列集合记为x:={x1,x2,...,xR},用x(r)表示除了机器人r之外的所有其它机器人的计划动作序列集合,则x(r):=x\xr,其中“\”表示去除;每台机器人有一个可能动作序列集合χr,χ表示所有机器人的可能动作序列集合,χ(r)表示χ(r):=χ\χr;
设定各机器人的监视半径,当目标出现在机器人监视半径内时,视为搜索到目标。每台机器人都搭载有必要光学传感器来搜索区域内的目标。
将每台机器人的行动用可能动作序列集合χr上的概率分布形式qr n表示,qr n(xr)表示机器人r选择计划动作序列xr的概率,为了保证计算的效率以及通信的可行性,本方法限制了qr n的范围,通过动态选择子集作为qr n的范围。
(2)设定一个蒙特卡洛树搜索奖励地图的更新方法,具体包括如下步骤:
(2-1)将待搜索目标的出现区域网格化,每个网格设置不同奖励值,形成追踪奖励地图和探索奖励地图/>在追踪奖励地图/>中,当机器人搜索到目标时,在该目标位置设置奖励值,并且该奖励值随着时间在相邻网格中传递;在探索奖励地图/>中,当机器人搜索到目标后,根据搜索到的目标与其他未知目标之间的空间位置关系,推测其他目标可能出现的区域,并且在该其他目标可能出现的区域网格内更新探索奖励地图;
(2-2)设置一个待优化的蒙特卡洛树搜索全局目标函数g(x),该全局目标函数g(x)为一个由步骤(1)中的所有机器人动作序列集合x构成的函数,g(x)=(g1(x),g2(x)),即所有机器人动作序列所经过的追踪奖励地图和探索奖励地图/>的奖励值总和相量:
其中,pose为机器人在步骤(2-1)中的追踪奖励地图和探索奖励地图/>中的位置坐标,位置由机器人自带的定位系确定。
(2-3)定义局部目标函数fr为机器人r在全局目标函数g(x)计算中执行动作序列xr和不执行任何动作之间的奖励差值,即:
是空集,本发明通过优化每个机器人的局部目标函数fr来优化全局目标函数g(x);其中,∪为并集运算;
(3)设定分布式多机器人中的每个机器人的初始位置,每个机器人的动作有三种选择,分别为以-45°、0°、45°为转向角向前前进一格,各机器人基于蒙特卡洛树搜索方法以并行的方式得到计划动作序列xr,使得机器人根据计划动作序列xr移动时,全局目标函数g(x)最大;分布式多机器人中的所有机器人同时独立进行如下具体步骤:
(3-1)每个机器人以初始位置作为根节点,由于机器人有三个动作,所以每个节点可以扩展出最多三个子节点。在蒙特卡洛树搜索方法中,从蒙特卡洛树的根节点开始搜索,根据帕雷托最优原则,每次选择子节点中上限区间分数相量帕雷托最优的节点作为下一个访问节点,向搜索树下方搜索,直到访问到一个存在未扩展子节点的节点,每个节点表示机器人所在的地图坐标,链接节点的箭头表示机器人做出的动作,第t次迭代时,子节点j的上限区间向量计算公式如下:
其中:
上述公式是一种折扣上限区间公式,其中,是折扣经验奖励值,/>是折扣探索奖励值,γ∈(1/2,1)是折扣因子,γ越小代表越近的模拟奖励权重越大,Cp是探索常数,Cp>0,i是当前节点的父节点,ti是节点id的访问次数,tj是子节点j的访问次数,Ft为第t次迭代时收集到的模拟奖励值,/>表示在第t次迭代选择节点j时返回值1,第t次迭代不选择节点j时返回0,tj(γ)是折扣后的子节点j被访问次数:
ti(γ)是折扣后的i节点的被访问次数为:
(3-2)利用(3-1)中上限区间公式选择子节点,在搜索树中向下访问直到拥有未扩展子节点的节点,在该节点处随机扩展一个子节点j,如图2所示的子节点j;
(3-3)设置机器人模拟随机移动上限值Nr,从步骤(3-2)扩展的子节点j开始,根据随机策略,机器人模拟随机移动Nr次,机器人经过所有网格的奖励值累加,得到第t次迭代的模拟奖励值Ft;
(3-4)采用反向传播方式,将第t次迭代的模拟奖励值Ft依次加到模拟节点相应的父节点上,直至到达搜索树的根节点,使迭代次数t=t+1;
(3-5)设置迭代次数上限值Nd,重复步骤(3-1)-步骤(3-4),直至迭代次数到达上限值Nd,形成一个用于分布式机器人搜索的蒙特卡洛搜索树;
(4)从步骤(3-5)的蒙特卡洛搜索树选取奖励值最高的N条通路作为机器人可能动作序列集合设定可能动作序列集合/>中的各动作序列概率分布qn r为均匀分布;
(5)分布式多机器人中的所有机器人向其他机器人发送本机器人的可能动作序列集合以及概率分布qn r,并接收其他机器人发送的可能动作序列/>以及概率分布qn (r)后,对本机器人的可能动作序列集合概率分布qn r进行优化,具体操作如下:
对于中所有动作序列xr进行如下操作:
(5-1)计算步骤(2-3)中的奖励差值fr的期望值:
其中,Π为连乘运算符;
(5-2)采用梯度下降法,利用下式优化可能动作序列集合的概率分布qn r:
其中,参数α为梯度下降固定步长,参数α取值范围为(0,0.1),本发明中取值为0.01,β为常数,β的取值范围为(0,1),H(qn r)为概率分布qn r的熵;
(6)从步骤(5)的中选取概率最高的动作序列作为机器人r的计划动作序列,并执行动作,若在动作过程中发现搜索目标,则更新步骤(2)中的追踪奖励地图/>和探索奖励地图/>若在动作过程中未发现搜索目标,则维持原来的奖励地图不变;
(7)根据分布式机器人目标搜索的要求时间,设置机器人动作次数上限Nt,重复上述步骤(3)~步骤(6),直至机器人动作次数达到上限Nt,完成分布式机器人目标搜索的任务。
Claims (1)
1.一种分布式多机器人目标搜索方法,其特征在于,该方法根据已知目标,带入搜索目标之间的关联性,实时更新区域追踪奖励与探索奖励,基于分布式蒙特卡洛树搜索确定机器人协同搜索过程中的动作序列,对上限置信区间进行改进,同时实现多目标优化,采用梯度下降法优化机器人动作序列概率分布,与其他机器人通信,更新机器人动作序列概率分布,完成分布式多机器人的目标搜索;
包括以下步骤:
(1)设定分布式多机器人中有R台机器人,机器人群{1,2,…,R},每台机器人独立规划自己的计划动作序列xr=(x1 r,x2 r,...),其中,x表示所有机器人的计划动作序列,将计划动作序列集合记为x:={x1,x2,...,xR},用x(r)表示除了机器人r之外的所有其它机器人的计划动作序列集合,则x(r):=x\xr,其中“\”表示去除;每台机器人有一个可能动作序列集合χr,χ表示所有机器人的可能动作序列集合,χ(r)表示χ(r):=χ\χr;
将每台机器人的行动用可能动作序列集合χr上的概率分布形式qr n表示,qr n(xr)表示机器人r选择计划动作序列xr的概率,通过动态选择子集作为qr n的范围;
(2)设定一个蒙特卡洛树搜索奖励地图的更新方法,具体包括如下步骤:
(2-1)将待搜索目标的出现区域网格化,每个网格设置不同奖励值,形成追踪奖励地图和探索奖励地图/>在追踪奖励地图/>中,当机器人搜索到目标时,在该目标位置设置奖励值,并且该奖励值随着时间在相邻网格中传递;在探索奖励地图/>中,当机器人搜索到目标后,根据搜索到的目标与其他未知目标之间的空间位置关系,推测其他目标可能出现的区域,并且在该其他目标可能出现的区域网格内更新探索奖励地图;
(2-2)设置一个待优化的蒙特卡洛树搜索全局目标函数g(x),该全局目标函数g(x)为一个由步骤(1)中的所有机器人动作序列集合x构成的函数,g(x)=(g1(x),g2(x)),即所有机器人动作序列所经过的追踪奖励地图和探索奖励地图/>的奖励值总和相量:
其中,pose为机器人在步骤(2-1)中的追踪奖励地图和探索奖励地图/>中的位置坐标,位置由机器人自带的定位系确定;
(2-3)定义局部目标函数fr为机器人r在全局目标函数g(x)计算中执行动作序列xr和不执行任何动作之间的奖励差值,即:
其中,是空集,∪为并集运算;
(3)设定分布式多机器人中的每个机器人的初始位置,每个机器人的动作有三种选择,分别为以-45°、0°、45°为转向角向前前进一格,各机器人基于蒙特卡洛树搜索方法以并行的方式得到计划动作序列xr,使得机器人根据计划动作序列xr移动时,全局目标函数g(x)最大;分布式多机器人中的所有机器人同时独立进行如下具体步骤:
(3-1)每个机器人以初始位置作为根节点,从蒙特卡洛树的根节点开始搜索,根据帕雷托最优原则,每次选择子节点中上限区间分数相量帕雷托最优的节点作为下一个访问节点,向搜索树下方搜索,直到访问到一个存在未扩展子节点的节点,每个节点表示机器人所在的地图坐标,链接节点的箭头表示机器人做出的动作,第t次迭代时,子节点j的上限区间向量计算公式如下:
其中:
上述公式是一种折扣上限区间公式,其中,是折扣经验奖励值,/>是折扣探索奖励值,γ∈(1/2,1)是折扣因子,γ越小代表越近的模拟奖励权重越大,Cp是探索常数,Cp>0,i是当前节点的父节点,ti是节点id的访问次数,tj是子节点j的访问次数,Ft为第t次迭代时收集到的模拟奖励值,1{Ii,t=j}表示在第t次迭代选择节点j时返回值1,第t次迭代不选择节点j时返回0,tj(γ)是折扣后的子节点j被访问次数:
ti(γ)是折扣后的i节点的被访问次数为:
(3-2)利用(3-1)中上限区间公式选择子节点,在搜索树中向下访问直到拥有未扩展子节点的节点,在该节点处随机扩展一个子节点j;
(3-3)设置机器人模拟随机移动上限值Nr,从步骤(3-2)扩展的子节点j开始,根据随机策略,机器人模拟随机移动Nr次,机器人经过所有网格的奖励值累加,得到第t次迭代的模拟奖励值Ft;
(3-4)采用反向传播方式,将第t次迭代的模拟奖励值Ft依次加到模拟节点相应的父节点上,直至到达搜索树的根节点,使迭代次数t=t+1;
(3-5)设置迭代次数上限值Nd,重复步骤(3-1)-步骤(3-4),直至迭代次数到达上限值Nd,形成一个用于分布式机器人搜索的蒙特卡洛搜索树;
(4)从步骤(3-5)的蒙特卡洛搜索树选取奖励值最高的N条通路作为机器人可能动作序列集合设定可能动作序列集合/>中的各动作序列概率分布qn r为均匀分布;
(5)分布式多机器人中的所有机器人向其他机器人发送本机器人的可能动作序列集合以及概率分布qn r,并接收其他机器人发送的可能动作序列/>以及概率分布qn (r)后,对本机器人的可能动作序列集合概率分布qn r进行优化,具体操作如下:
对于中所有动作序列xr进行如下操作:
(5-1)计算步骤(2-3)中的奖励差值fr的期望值:
其中,∏为连乘运算符;
(5-2)采用梯度下降法,利用下式优化可能动作序列集合的概率分布qn r:
其中,参数α为梯度下降固定步长,参数α取值范围为0~0.1,β为常数,β的取值范围为0~1,H(qn r)为概率分布qn r的熵;
(6)从步骤(5)的中选取概率最高的动作序列作为机器人r的计划动作序列,并执行动作,若在动作过程中发现搜索目标,则更新步骤(2)中的追踪奖励地图/>和探索奖励地图/>若在动作过程中未发现搜索目标,则维持原来的奖励地图不变;
(7)根据分布式机器人目标搜索的要求时间,设置机器人动作次数上限Nt,重复上述步骤(3)~步骤(6),直至机器人动作次数达到上限Nt,完成分布式机器人目标搜索的任务。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110158566.7A CN112827174B (zh) | 2021-02-05 | 2021-02-05 | 一种分布式多机器人目标搜索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110158566.7A CN112827174B (zh) | 2021-02-05 | 2021-02-05 | 一种分布式多机器人目标搜索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112827174A CN112827174A (zh) | 2021-05-25 |
CN112827174B true CN112827174B (zh) | 2024-05-07 |
Family
ID=75932237
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110158566.7A Active CN112827174B (zh) | 2021-02-05 | 2021-02-05 | 一种分布式多机器人目标搜索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112827174B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116673968B (zh) * | 2023-08-03 | 2023-10-10 | 南京云创大数据科技股份有限公司 | 基于强化学习的机械臂轨迹规划要素选择方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106959700A (zh) * | 2017-03-21 | 2017-07-18 | 北京航空航天大学 | 一种基于上限置信区间算法的无人机群协同巡逻追踪轨迹规划方法 |
CN110674470A (zh) * | 2019-10-25 | 2020-01-10 | 中国人民解放军国防科技大学 | 一种动态环境中多机器人的分布式任务规划方法 |
WO2020040763A1 (en) * | 2018-08-23 | 2020-02-27 | Siemens Aktiengesellschaft | Real-time production scheduling with deep reinforcement learning and monte carlo tree search |
CN111563188A (zh) * | 2020-04-30 | 2020-08-21 | 南京邮电大学 | 一种移动多智能体协同目标搜索方法 |
CN111860649A (zh) * | 2020-07-21 | 2020-10-30 | 赵佳 | 基于多智能体强化学习的动作集合输出方法及系统 |
-
2021
- 2021-02-05 CN CN202110158566.7A patent/CN112827174B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106959700A (zh) * | 2017-03-21 | 2017-07-18 | 北京航空航天大学 | 一种基于上限置信区间算法的无人机群协同巡逻追踪轨迹规划方法 |
WO2020040763A1 (en) * | 2018-08-23 | 2020-02-27 | Siemens Aktiengesellschaft | Real-time production scheduling with deep reinforcement learning and monte carlo tree search |
CN110674470A (zh) * | 2019-10-25 | 2020-01-10 | 中国人民解放军国防科技大学 | 一种动态环境中多机器人的分布式任务规划方法 |
CN111563188A (zh) * | 2020-04-30 | 2020-08-21 | 南京邮电大学 | 一种移动多智能体协同目标搜索方法 |
CN111860649A (zh) * | 2020-07-21 | 2020-10-30 | 赵佳 | 基于多智能体强化学习的动作集合输出方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN112827174A (zh) | 2021-05-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110989352B (zh) | 一种基于蒙特卡洛树搜索算法的群体机器人协同搜索方法 | |
CN104462190B (zh) | 一种基于海量空间轨迹挖掘的在线的位置预测方法 | |
Tang et al. | A novel hierarchical soft actor-critic algorithm for multi-logistics robots task allocation | |
Wei et al. | Recurrent MADDPG for object detection and assignment in combat tasks | |
CN106372766A (zh) | 用于电磁干扰环境中的无人机路径规划方法 | |
CN113985888A (zh) | 一种基于改进蚁群算法的叉车路径规划方法及系统 | |
Wang et al. | Research on dynamic path planning of wheeled robot based on deep reinforcement learning on the slope ground | |
CN116520281B (zh) | 一种基于ddpg的扩展目标跟踪优化方法和装置 | |
CN112827174B (zh) | 一种分布式多机器人目标搜索方法 | |
Ding et al. | Improved GWO algorithm for UAV path planning on crop pest monitoring | |
CN113391633A (zh) | 一种面向城市环境的移动机器人融合路径规划方法 | |
CN116952265A (zh) | 基于袋獾优化算法的工厂智能车巡检路径规划方法及系统 | |
CN109190787B (zh) | 水下潜航器的双重粒子群多监测点访问路径规划方法 | |
CN114815801A (zh) | 一种基于策略-价值网络及mcts的自适应环境路径规划方法 | |
Yang et al. | Learning graph-enhanced commander-executor for multi-agent navigation | |
Wang et al. | A scheme library-based ant colony optimization with 2-opt local search for dynamic traveling salesman problem | |
Xie et al. | Energy-and time-aware data acquisition for mobile robots using mixed cognition particle swarm optimization | |
CN110097076A (zh) | 一种基于gpu架构的矢量道路网络匹配并行计算方法及装置 | |
Liu | Shortest path selection algorithm for cold chain logistics transportation based on improved artificial bee colony | |
Xu | Context-based trajectory prediction with LSTM networks | |
Li et al. | An adaptive immune ant colony optimization for reducing energy consumption of automatic inspection path planning in industrial wireless sensor networks | |
Wenwen | Application Research of end to end behavior decision based on deep reinforcement learning | |
CN111486847A (zh) | 一种无人机导航方法及系统 | |
CN114489035B (zh) | 一种基于累积迹强化学习的多机器人协同搜索方法 | |
CN116718198B (zh) | 基于时序知识图谱的无人机集群的路径规划方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |