CN112827174A - 一种分布式多机器人目标搜索方法 - Google Patents

一种分布式多机器人目标搜索方法 Download PDF

Info

Publication number
CN112827174A
CN112827174A CN202110158566.7A CN202110158566A CN112827174A CN 112827174 A CN112827174 A CN 112827174A CN 202110158566 A CN202110158566 A CN 202110158566A CN 112827174 A CN112827174 A CN 112827174A
Authority
CN
China
Prior art keywords
robot
reward
action
target
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110158566.7A
Other languages
English (en)
Other versions
CN112827174B (zh
Inventor
刘华平
马成宇
葛泉波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN202110158566.7A priority Critical patent/CN112827174B/zh
Publication of CN112827174A publication Critical patent/CN112827174A/zh
Application granted granted Critical
Publication of CN112827174B publication Critical patent/CN112827174B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/55Controlling game characters or game objects based on the game progress
    • A63F13/56Computing the motion of game characters with respect to other game characters, game objects or elements of the game scene, e.g. for simulating the behaviour of a group of virtual soldiers or for path finding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F2300/00Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game
    • A63F2300/60Methods for processing data by generating or executing the game program
    • A63F2300/6027Methods for processing data by generating or executing the game program using adaptive systems learning from user actions, e.g. for skill level adjustment

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Feedback Control In General (AREA)
  • Manipulator (AREA)

Abstract

本发明属于人工智能技术领域,尤其涉及一种分布式多机器人目标搜索方法。本发明公开了一种知识驱动的基于分布式蒙特卡洛树搜索算法的机器人群体目标搜索方法,包括:根据专家知识将搜索目标之间的关联性带入算法,实时更新区域追踪奖励与探索奖励,基于分布式蒙特卡洛树搜索算法确定机器人协同搜索过程中的动作序列,改进的上限置信区间同时利帕雷托最优策略实现多目标优化,利用梯度下降法优化机器人动作序列概率分布,与其他机器人通信,更新机器人动作序列概率分布。解决了机器人群体在未知、动态环境下的群体协同目标搜索问题。

Description

一种分布式多机器人目标搜索方法
技术领域
本发明属于人工智能技术领域,尤其涉及一种分布式多机器人目标搜索方法。
背景技术
现阶段多智能体的环境感知技术主要是被动地完成环境探测、目标识别与跟踪、实时定位与地图构建等,所涉及的智能体数目也大多为单个。此外,机器人群体的研究领域大多集中在机器人的群体集中式编队、机器人之间的通信机制、机器人之间的任务资源分配等方面,在机器人群体的协同目标搜索方面很少有研究,而移动目标搜索更是稀少。随着深度学习算法的飞速发展,热门的深度学习主要关注于文本、图像、视频等数据的处理,但是这一过程耗时长、数据收集成本高无法应用于实际的多机器人系统以及实时区域态势感知当中。在复杂大规模动态环境中,机器人需要与环境交互的信息量较多,不能很好地通过深度学习方法来进行主动目标感知。
现有的机器人目标搜索研究成果大部分集中于已知的静态环境,大多借助环境离散化,采用传统搜索算法,得到起点和终点之间的路径,比如:A*算法,蚁群算法,遗传算法,粒子群算法等。这些算法搜索速度慢,计算量大,在多约束条件下很难找到机器人群体的最优轨迹,且上述算法研究多集中于单个机器人应用,很少涉及群体机器人的协同搜索和感知。而且当区域环境未知且发生变化的时候,上述算法无法适应环境变化,必须重新计算,在区域态势感知、移动目标搜索方面有很大的局限性。
蒙特卡洛树搜索算法是一种利用蒙特卡洛方法作为评估的博弈树搜索算法,不需要引入过多的领域知识的同时,具有非常大的可扩展性,其采用的上限置信区间策略可以极大提升计算机博弈引擎水平,目前该算法多用于如围棋一类的博弈类游戏的开发,少数研究将蒙特卡洛算法应用于单个机器人在线规划,在机器人群体的目标搜索领域很少有研究成果。
发明内容
本发明的目的是提出一种分布式多机器人目标搜索方法,以克服现有技术中的不足,针对大规模且未知的非结构化复杂环境,引入专家知识,实时更新区域奖励值,并且利用蒙特卡洛树搜索算法解决多约束下群体机器人区域性系统快速轨迹规划和移动目标搜索。
本发明提出的分布式多机器人目标搜索方法,该方法根据已知目标,带入搜索目标之间的关联性,实时更新区域追踪奖励与探索奖励,基于分布式蒙特卡洛树搜索确定机器人协同搜索过程中的动作序列,对上限置信区间进行改进,同时利用利帕雷托最优策略实现多目标优化,采用梯度下降法优化机器人动作序列概率分布,与其他机器人通信,更新机器人动作序列概率分布,完成分布式多机器人的目标搜索。
本发明提出的一种分布式多机器人目标搜索方法,其优点是:
1、本发明的分布式多机器人目标搜索方法,是一种群体协同主动感知方法,其中引入专家知识或已知目标,在搜索到敌方目标的时候根据专家知识推测其他目标可能出现的区域并且更新奖励。
2、本发明方法中设置独特的奖励机制,在机器人搜索到目标后同时生成追踪奖励地图和探索奖励地图。使得奖励地图能够随时间实时变化,从而使得机器人群体能够适应环境变化继续作出优化决策,并且在追踪和探索中保持平衡,不需要重新开始计算。
3、本发明方法,能够首先由多机器人分布式同时群体协同搜索,在预算时间足够的情况下,能够演进学习,随着迭代次数增多搜索效果逐渐提高。本发明方法解决了机器人群体在未知、动态环境下的群体协同目标搜索问题。
附图说明
图1是本发明提出的一种分布式多机器人目标搜索方法的流程框图。
图2是本发明方法的一个实施例中涉及的蒙特卡洛搜索树的示意图。
具体实施方式
本发明提出的分布式多机器人目标搜索方法,根据已知目标,带入搜索目标之间的关联性,实时更新区域追踪奖励与探索奖励,基于分布式蒙特卡洛树搜索确定机器人协同搜索过程中的动作序列,对上限置信区间进行改进,同时利用利帕雷托最优策略实现多目标优化,采用梯度下降法优化机器人动作序列概率分布,与其他机器人通信,更新机器人动作序列概率分布,完成分布式多机器人的目标搜索。
本发明的分布式多机器人目标搜索方法的一个实施例中,其流程框图如图1所示,包括以下步骤:
(1)设定分布式多机器人中有R台机器人,机器人群{1,2,…,R},每台机器人独立规划自己的计划动作序列xr=(x1 r,x2 r,...),其中,x表示所有机器人的计划动作序列,将计划动作序列集合记为x:={x1,x2,...,xR},用x(r)表示除了机器人r之外的所有其它机器人的计划动作序列集合,则x(r):=x\xr,其中“\”表示去除;每台机器人有一个可能动作序列集合χr,χ表示所有机器人的可能动作序列集合,χ(r)表示χ(r):=χ\χr
设定各机器人的监视半径,当目标出现在机器人监视半径内时,视为搜索到目标。每台机器人都搭载有必要光学传感器来搜索区域内的目标。
将每台机器人的行动用可能动作序列集合χr上的概率分布形式qr n表示,qr n(xr)表示机器人r选择计划动作序列xr的概率,为了保证计算的效率以及通信的可行性,本方法限制了qr n的范围,通过动态选择子集
Figure BDA0002935399670000031
作为qr n的范围。
(2)设定一个蒙特卡洛树搜索奖励地图的更新方法,具体包括如下步骤:
(2-1)将待搜索目标的出现区域网格化,每个网格设置不同奖励值,形成追踪奖励地图
Figure BDA0002935399670000032
和探索奖励地图
Figure BDA0002935399670000033
在追踪奖励地图
Figure BDA0002935399670000034
中,当机器人搜索到目标时,在该目标位置设置奖励值,并且该奖励值随着时间在相邻网格中传递;在探索奖励地图
Figure BDA0002935399670000035
中,当机器人搜索到目标后,根据搜索到的目标与其他未知目标之间的空间位置关系,推测其他目标可能出现的区域,并且在该其他目标可能出现的区域网格内更新探索奖励地图;
(2-2)设置一个待优化的蒙特卡洛树搜索全局目标函数g(x),该全局目标函数g(x)为一个由步骤(1)中的所有机器人动作序列集合x构成的函数,g(x)=(g1(x),g2(x)),即所有机器人动作序列所经过的追踪奖励地图
Figure BDA0002935399670000036
和探索奖励地图
Figure BDA0002935399670000037
的奖励值总和相量:
Figure BDA0002935399670000038
Figure BDA0002935399670000039
其中,pose为机器人在步骤(2-1)中的追踪奖励地图
Figure BDA00029353996700000310
和探索奖励地图
Figure BDA00029353996700000311
中的位置坐标,位置由机器人自带的定位系确定。
(2-3)定义局部目标函数fr为机器人r在全局目标函数g(x)计算中执行动作序列xr和不执行任何动作之间的奖励差值,即:
Figure BDA0002935399670000041
Figure BDA0002935399670000042
是空集,本发明通过优化每个机器人的局部目标函数fr来优化全局目标函数g(x);其中,∪为并集运算;
(3)设定分布式多机器人中的每个机器人的初始位置,每个机器人的动作有三种选择,分别为以-45°、0°、45°为转向角向前前进一格,各机器人基于蒙特卡洛树搜索方法以并行的方式得到计划动作序列xr,使得机器人根据计划动作序列xr移动时,全局目标函数g(x)最大;分布式多机器人中的所有机器人同时独立进行如下具体步骤:
(3-1)每个机器人以初始位置作为根节点,由于机器人有三个动作,所以每个节点可以扩展出最多三个子节点。在蒙特卡洛树搜索方法中,从蒙特卡洛树的根节点开始搜索,根据帕雷托最优原则,每次选择子节点中上限区间分数相量帕雷托最优的节点作为下一个访问节点,向搜索树下方搜索,直到访问到一个存在未扩展子节点的节点,每个节点表示机器人所在的地图坐标,链接节点的箭头表示机器人做出的动作,第t次迭代时,子节点j的上限区间向量计算公式如下:
Figure BDA0002935399670000043
其中:
Figure BDA0002935399670000044
Figure BDA0002935399670000045
上述公式是一种折扣上限区间公式,其中,
Figure BDA0002935399670000046
是折扣经验奖励值,
Figure BDA0002935399670000047
是折扣探索奖励值,γ∈(1/2,1)是折扣因子,γ越小代表越近的模拟奖励权重越大,Cp是探索常数,Cp>0,i是当前节点的父节点,ti是节点id的访问次数,tj是子节点j的访问次数,Ft为第t次迭代时收集到的模拟奖励值,
Figure BDA0002935399670000048
表示在第t次迭代选择节点j时返回值1,第t次迭代不选择节点j时返回0,tj(γ)是折扣后的子节点j被访问次数:
Figure BDA0002935399670000051
ti(γ)是折扣后的i节点的被访问次数为:
Figure BDA0002935399670000052
(3-2)利用(3-1)中上限区间公式选择子节点,在搜索树中向下访问直到拥有未扩展子节点的节点,在该节点处随机扩展一个子节点j,如图2所示的子节点j;
(3-3)设置机器人模拟随机移动上限值Nr,从步骤(3-2)扩展的子节点j开始,根据随机策略,机器人模拟随机移动Nr次,机器人经过所有网格的奖励值累加,得到第t次迭代的模拟奖励值Ft
(3-4)采用反向传播方式,将第t次迭代的模拟奖励值Ft依次加到模拟节点相应的父节点上,直至到达搜索树的根节点,使迭代次数t=t+1;
(3-5)设置迭代次数上限值Nd,重复步骤(3-1)-步骤(3-4),直至迭代次数到达上限值Nd,形成一个用于分布式机器人搜索的蒙特卡洛搜索树;
(4)从步骤(3-5)的蒙特卡洛搜索树选取奖励值最高的N条通路作为机器人可能动作序列集合
Figure BDA0002935399670000053
设定可能动作序列集合
Figure BDA0002935399670000054
中的各动作序列概率分布qn r为均匀分布;
(5)分布式多机器人中的所有机器人向其他机器人发送本机器人的可能动作序列集合
Figure BDA0002935399670000055
以及概率分布qn r,并接收其他机器人发送的可能动作序列
Figure BDA0002935399670000056
以及概率分布qn (r)后,对本机器人的可能动作序列集合概率分布qn r进行优化,具体操作如下:
对于
Figure BDA0002935399670000057
中所有动作序列xr进行如下操作:
(5-1)计算步骤(2-3)中的奖励差值fr的期望值:
Figure BDA0002935399670000058
Figure BDA0002935399670000059
其中,Π为连乘运算符;
(5-2)采用梯度下降法,利用下式优化可能动作序列集合
Figure BDA00029353996700000510
的概率分布qn r
Figure BDA0002935399670000061
其中,参数α为梯度下降固定步长,参数α取值范围为(0,0.1),本发明中取值为0.01,β为常数,β的取值范围为(0,1),H(qn r)为概率分布qn r的熵;
(6)从步骤(5)的
Figure BDA0002935399670000062
中选取概率最高的动作序列作为机器人r的计划动作序列,并执行动作,若在动作过程中发现搜索目标,则更新步骤(2)中的追踪奖励地图
Figure BDA0002935399670000063
和探索奖励地图
Figure BDA0002935399670000064
若在动作过程中未发现搜索目标,则维持原来的奖励地图不变;
(7)根据分布式机器人目标搜索的要求时间,设置机器人动作次数上限Nt,重复上述步骤(3)~步骤(6),直至机器人动作次数达到上限Nt,完成分布式机器人目标搜索的任务。

Claims (2)

1.一种分布式多机器人目标搜索方法,其特征在于,该方法根据已知目标,带入搜索目标之间的关联性,实时更新区域追踪奖励与探索奖励,基于分布式蒙特卡洛树搜索确定机器人协同搜索过程中的动作序列,对上限置信区间进行改进,同时利用利帕雷托最优策略实现多目标优化,采用梯度下降法优化机器人动作序列概率分布,与其他机器人通信,更新机器人动作序列概率分布,完成分布式多机器人的目标搜索。
2.一种如权利要求1所述的分布式多机器人目标搜索方法,其特征在于包括以下步骤:
(1)设定分布式多机器人中有R台机器人,机器人群{1,2,…,R},每台机器人独立规划自己的计划动作序列xr=(x1 r,x2 r,...),其中,x表示所有机器人的计划动作序列,将计划动作序列集合记为x:={x1,x2,...,xR},用x(r)表示除了机器人r之外的所有其它机器人的计划动作序列集合,则x(r):=x\xr,其中“\”表示去除;每台机器人有一个可能动作序列集合χr,χ表示所有机器人的可能动作序列集合,χ(r)表示χ(r):=χ\χr
将每台机器人的行动用可能动作序列集合χr上的概率分布形式qr n表示,qr n(xr)表示机器人r选择计划动作序列xr的概率,通过动态选择子集
Figure FDA0002935399660000011
作为qr n的范围;
(2)设定一个蒙特卡洛树搜索奖励地图的更新方法,具体包括如下步骤:
(2-1)将待搜索目标的出现区域网格化,每个网格设置不同奖励值,形成追踪奖励地图
Figure FDA0002935399660000012
和探索奖励地图
Figure FDA0002935399660000013
在追踪奖励地图
Figure FDA0002935399660000014
中,当机器人搜索到目标时,在该目标位置设置奖励值,并且该奖励值随着时间在相邻网格中传递;在探索奖励地图
Figure FDA0002935399660000015
中,当机器人搜索到目标后,根据搜索到的目标与其他未知目标之间的空间位置关系,推测其他目标可能出现的区域,并且在该其他目标可能出现的区域网格内更新探索奖励地图;
(2-2)设置一个待优化的蒙特卡洛树搜索全局目标函数g(x),该全局目标函数g(x)为一个由步骤(1)中的所有机器人动作序列集合x构成的函数,g(x)=(g1(x),g2(x)),即所有机器人动作序列所经过的追踪奖励地图
Figure FDA0002935399660000016
和探索奖励地图
Figure FDA0002935399660000017
的奖励值总和相量:
Figure FDA0002935399660000021
Figure FDA0002935399660000022
其中,pose为机器人在步骤(2-1)中的追踪奖励地图
Figure FDA00029353996600000210
和探索奖励地图
Figure FDA00029353996600000211
中的位置坐标,位置由机器人自带的定位系确定。
(2-3)定义局部目标函数fr为机器人r在全局目标函数g(x)计算中执行动作序列xr和不执行任何动作之间的奖励差值,即:
Figure FDA0002935399660000023
其中,
Figure FDA0002935399660000024
是空集,∪为并集运算;
(3)设定分布式多机器人中的每个机器人的初始位置,每个机器人的动作有三种选择,分别为以-45°、0°、45°为转向角向前前进一格,各机器人基于蒙特卡洛树搜索方法以并行的方式得到计划动作序列xr,使得机器人根据计划动作序列xr移动时,全局目标函数g(x)最大;分布式多机器人中的所有机器人同时独立进行如下具体步骤:
(3-1)每个机器人以初始位置作为根节点,从蒙特卡洛树的根节点开始搜索,根据帕雷托最优原则,每次选择子节点中上限区间分数相量帕雷托最优的节点作为下一个访问节点,向搜索树下方搜索,直到访问到一个存在未扩展子节点的节点,每个节点表示机器人所在的地图坐标,链接节点的箭头表示机器人做出的动作,第t次迭代时,子节点j的上限区间向量计算公式如下:
Figure FDA0002935399660000025
其中:
Figure FDA0002935399660000026
Figure FDA0002935399660000027
上述公式是一种折扣上限区间公式,其中,
Figure FDA0002935399660000028
是折扣经验奖励值,
Figure FDA0002935399660000029
是折扣探索奖励值,γ∈(1/2,1)是折扣因子,γ越小代表越近的模拟奖励权重越大,Cp是探索常数,Cp>0,i是当前节点的父节点,
Figure FDA0002935399660000031
是节点id的访问次数,tj是子节点j的访问次数,Ft为第t次迭代时收集到的模拟奖励值,
Figure FDA0002935399660000032
表示在第t次迭代选择节点j时返回值1,第t次迭代不选择节点j时返回0,tj(γ)是折扣后的子节点j被访问次数:
Figure FDA0002935399660000033
ti(γ)是折扣后的i节点的被访问次数为:
Figure FDA0002935399660000034
(3-2)利用(3-1)中上限区间公式选择子节点,在搜索树中向下访问直到拥有未扩展子节点的节点,在该节点处随机扩展一个子节点j;
(3-3)设置机器人模拟随机移动上限值Nr,从步骤(3-2)扩展的子节点j开始,根据随机策略,机器人模拟随机移动Nr次,机器人经过所有网格的奖励值累加,得到第t次迭代的模拟奖励值Ft
(3-4)采用反向传播方式,将第t次迭代的模拟奖励值Ft依次加到模拟节点相应的父节点上,直至到达搜索树的根节点,使迭代次数t=t+1;
(3-5)设置迭代次数上限值Nd,重复步骤(3-1)-步骤(3-4),直至迭代次数到达上限值Nd,形成一个用于分布式机器人搜索的蒙特卡洛搜索树;
(4)从步骤(3-5)的蒙特卡洛搜索树选取奖励值最高的N条通路作为机器人可能动作序列集合
Figure FDA0002935399660000035
设定可能动作序列集合
Figure FDA0002935399660000036
中的各动作序列概率分布qn r为均匀分布;
(5)分布式多机器人中的所有机器人向其他机器人发送本机器人的可能动作序列集合
Figure FDA0002935399660000037
以及概率分布qn r,并接收其他机器人发送的可能动作序列
Figure FDA0002935399660000038
以及概率分布qn (r)后,对本机器人的可能动作序列集合概率分布qn r进行优化,具体操作如下:
对于
Figure FDA0002935399660000039
中所有动作序列xr进行如下操作:
(5-1)计算步骤(2-3)中的奖励差值fr的期望值:
Figure FDA0002935399660000041
Figure FDA0002935399660000042
其中,Π为连乘运算符;
(5-2)采用梯度下降法,利用下式优化可能动作序列集合
Figure FDA0002935399660000043
的概率分布qn r
Figure FDA0002935399660000044
其中,参数α为梯度下降固定步长,参数α取值范围为0~0.1,β为常数,β的取值范围为0~1,H(qn r)为概率分布qn r的熵;
(6)从步骤(5)的
Figure FDA0002935399660000045
中选取概率最高的动作序列作为机器人r的计划动作序列,并执行动作,若在动作过程中发现搜索目标,则更新步骤(2)中的追踪奖励地图
Figure FDA0002935399660000046
和探索奖励地图
Figure FDA0002935399660000047
若在动作过程中未发现搜索目标,则维持原来的奖励地图不变;
(7)根据分布式机器人目标搜索的要求时间,设置机器人动作次数上限Nt,重复上述步骤(3)~步骤(6),直至机器人动作次数达到上限Nt,完成分布式机器人目标搜索的任务。
CN202110158566.7A 2021-02-05 2021-02-05 一种分布式多机器人目标搜索方法 Active CN112827174B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110158566.7A CN112827174B (zh) 2021-02-05 2021-02-05 一种分布式多机器人目标搜索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110158566.7A CN112827174B (zh) 2021-02-05 2021-02-05 一种分布式多机器人目标搜索方法

Publications (2)

Publication Number Publication Date
CN112827174A true CN112827174A (zh) 2021-05-25
CN112827174B CN112827174B (zh) 2024-05-07

Family

ID=75932237

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110158566.7A Active CN112827174B (zh) 2021-02-05 2021-02-05 一种分布式多机器人目标搜索方法

Country Status (1)

Country Link
CN (1) CN112827174B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116673968A (zh) * 2023-08-03 2023-09-01 南京云创大数据科技股份有限公司 基于强化学习的机械臂轨迹规划要素选择方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106959700A (zh) * 2017-03-21 2017-07-18 北京航空航天大学 一种基于上限置信区间算法的无人机群协同巡逻追踪轨迹规划方法
CN110674470A (zh) * 2019-10-25 2020-01-10 中国人民解放军国防科技大学 一种动态环境中多机器人的分布式任务规划方法
WO2020040763A1 (en) * 2018-08-23 2020-02-27 Siemens Aktiengesellschaft Real-time production scheduling with deep reinforcement learning and monte carlo tree search
CN111563188A (zh) * 2020-04-30 2020-08-21 南京邮电大学 一种移动多智能体协同目标搜索方法
CN111860649A (zh) * 2020-07-21 2020-10-30 赵佳 基于多智能体强化学习的动作集合输出方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106959700A (zh) * 2017-03-21 2017-07-18 北京航空航天大学 一种基于上限置信区间算法的无人机群协同巡逻追踪轨迹规划方法
WO2020040763A1 (en) * 2018-08-23 2020-02-27 Siemens Aktiengesellschaft Real-time production scheduling with deep reinforcement learning and monte carlo tree search
CN110674470A (zh) * 2019-10-25 2020-01-10 中国人民解放军国防科技大学 一种动态环境中多机器人的分布式任务规划方法
CN111563188A (zh) * 2020-04-30 2020-08-21 南京邮电大学 一种移动多智能体协同目标搜索方法
CN111860649A (zh) * 2020-07-21 2020-10-30 赵佳 基于多智能体强化学习的动作集合输出方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116673968A (zh) * 2023-08-03 2023-09-01 南京云创大数据科技股份有限公司 基于强化学习的机械臂轨迹规划要素选择方法及系统
CN116673968B (zh) * 2023-08-03 2023-10-10 南京云创大数据科技股份有限公司 基于强化学习的机械臂轨迹规划要素选择方法及系统

Also Published As

Publication number Publication date
CN112827174B (zh) 2024-05-07

Similar Documents

Publication Publication Date Title
CN110989352B (zh) 一种基于蒙特卡洛树搜索算法的群体机器人协同搜索方法
CN112969144B (zh) 一种面向移动边缘计算的微服务预部署方法及系统
Jiang et al. Path planning of a mobile robot in a free-space environment using Q-learning
CN114741886B (zh) 一种基于贡献度评价的无人机集群多任务训练方法及系统
Guo et al. A fusion method of local path planning for mobile robots based on LSTM neural network and reinforcement learning
CN116520281B (zh) 一种基于ddpg的扩展目标跟踪优化方法和装置
Zhou et al. Efficient and robust reinforcement learning with uncertainty-based value expansion
CN113391633A (zh) 一种面向城市环境的移动机器人融合路径规划方法
CN112356031A (zh) 一种基于Kernel采样策略在不确定性环境下的在线规划方法
CN112827174B (zh) 一种分布式多机器人目标搜索方法
Xie et al. Energy-and time-aware data acquisition for mobile robots using mixed cognition particle swarm optimization
Yang et al. Learning graph-enhanced commander-executor for multi-agent navigation
Yu et al. AGV multi-objective path planning method based on improved cuckoo algorithm
He et al. Decentralized exploration of a structured environment based on multi-agent deep reinforcement learning
Wu et al. An improved discrete pigeon-inspired optimisation algorithm for flexible job shop scheduling problem
CN113139644B (zh) 一种基于深度蒙特卡洛树搜索的信源导航方法及装置
Xu Context-based trajectory prediction with LSTM networks
Li et al. An adaptive immune ant colony optimization for reducing energy consumption of automatic inspection path planning in industrial wireless sensor networks
Wenwen Application Research of end to end behavior decision based on deep reinforcement learning
Liu Shortest path selection algorithm for cold chain logistics transportation based on improved artificial bee colony
Thomas et al. Inverse Reinforcement Learning for Generalized Labeled Multi-Bernoulli Multi-Target Tracking
CN114489035B (zh) 一种基于累积迹强化学习的多机器人协同搜索方法
Pratihar Traditional vs non-traditional optimization tools
Yu et al. An intelligent robot motion planning method and application via lppo in unknown environment
Wang et al. Tea picking path planning based on ant colony algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant