CN115494844A - 一种多机器人搜索方法及系统 - Google Patents

一种多机器人搜索方法及系统 Download PDF

Info

Publication number
CN115494844A
CN115494844A CN202211175076.9A CN202211175076A CN115494844A CN 115494844 A CN115494844 A CN 115494844A CN 202211175076 A CN202211175076 A CN 202211175076A CN 115494844 A CN115494844 A CN 115494844A
Authority
CN
China
Prior art keywords
robot
target
robots
search
current operation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211175076.9A
Other languages
English (en)
Other versions
CN115494844B (zh
Inventor
郭宏亮
陈启明
盛文达
郑鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Puwei Technology Co ltd
Original Assignee
Chengdu Puwei Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Puwei Technology Co ltd filed Critical Chengdu Puwei Technology Co ltd
Priority to CN202211175076.9A priority Critical patent/CN115494844B/zh
Publication of CN115494844A publication Critical patent/CN115494844A/zh
Application granted granted Critical
Publication of CN115494844B publication Critical patent/CN115494844B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0221Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/10Simultaneous control of position or course in three dimensions
    • G05D1/101Simultaneous control of position or course in three dimensions specially adapted for aircraft
    • G05D1/104Simultaneous control of position or course in three dimensions specially adapted for aircraft involving a plurality of aircrafts, e.g. formation flying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/02Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computational Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Automation & Control Theory (AREA)
  • Remote Sensing (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Databases & Information Systems (AREA)
  • Algebra (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Manipulator (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明公开了一种多机器人搜索方法及系统,应用于控制端,所述多机器人搜索方法包括:S1:获取交互环境内所有机器人在当前运行策略下的当前运行结果;S2:判断所述当前运行结果中是否包括搜索目标,若是,训练次数加1并进入步骤S4;否则,进入步骤S3;S3:根据所有机器人的历史运行结果对所有机器人的运行策略进行更新并将更新后的运行策略作为所述当前运行策略后返回步骤S1;S4:判断当前训练次数是否达到预设次数/判断当前训练结果是否满足目标结果,若是,进入步骤S5;否则,返回步骤S1;S5:控制所有机器人根据各自当前运行策略执行搜索。本发明能够解决现有技术中目标搜索计算复杂,目标单一且效率低的问题。

Description

一种多机器人搜索方法及系统
技术领域
本发明涉及目标搜索技术领域,具体涉及一种多机器人搜索方法及系统。
背景技术
在过去的几十年里,多机器人搜索非对抗性的移动目标一直是一个热门的研究课题,获得了学术届和工业界的许多关注。一方面,多机器人搜索问题可以被认为是许多实际应用的潜在解决方案。例如,在危险环境中的搜索和救援,森林火灾检测。另一方面,多机器人搜索也是许多基础研究的测试平台,如博弈论、多智能体强化学习和多机器人合作问题。因此多机器人搜索问题是个多学科交叉的复杂问题,其解决方案也多种多样。
传统的多机器人搜索一般关注其最终捕获目标的平均时间,经典的解决方法一般都是基于规划的,其做法是将搜索问题转换为数学规划问题,但是其随着环境的增大以及机器人数量的增加,其计算量呈指数级增长,十分消耗计算资源,并且很难满足一些具有实时响应的需求的现实任务。除了数学规划法外,多智能体强化学习也是近几年十分热门的方法,但是其本身具有训练时间才,训练不稳定的属性,导致在大规模场景下难以训练,并且,大部分的强化学习方法都依赖于机器人之间的信息交互,然而在实际应用中,存在着许多无法通信交互的场景,这些方法就无法很好地解决这个问题。除了以上问题外,现有的方法都关注于得到最短的平均搜索时间,无法关注一些可靠性条件,如最大化在规定时间内的成功捕捉目标的概率。
发明内容
本发明的目的在于提供一种多机器人搜索方法及系统,以解决现有技术中目标搜索计算复杂,目标单一且效率低的问题。
本发明解决上述技术问题的技术方案如下:
本发明提供一种多机器人搜索方法,应用于控制端,所述多机器人搜索方法包括:
S1:获取交互环境内所有机器人在当前运行策略下的当前运行结果;
S2:判断所述当前运行结果中是否包括搜索目标,若是,训练次数加1并进入步骤S4;否则,进入步骤S3;
S3:根据所有机器人的历史运行结果对所有机器人的运行策略进行更新并将更新后的运行策略作为所述当前运行策略后返回步骤S1;
S4:判断当前训练次数是否达到预设次数/判断当前训练结果是否满足目标结果,若是,进入步骤S5;否则,返回步骤S1;
S5:控制所有机器人根据各自当前运行策略执行搜索。
可选择地,所述步骤S3中,利用集中训练式的值分布贝尔曼算子对所有机器人的运行策略进行更新。
可选择地,所述步骤S3包括:
S31:获取目标机器人目标时刻的行为和目标时刻之前的历史观测值;
S32:根据所述目标机器人目标时刻的行为和目标时刻之前的历史观测值,得到目标机器人的集中训练式的值分布贝尔曼算子;
S33:利用具有记忆效果的神经网络对所述目标机器人的集中训练式的值分布贝尔曼算子进行求解,得到所述目标机器人下一时刻的概率密度函数值;
S34:重复步骤S31-S33,直到得到所有机器人下一时刻的概率密度函数值;
S35:根据所有机器人下一时刻的概率密度函数和对所有机器人下一时刻的概率密度函数值进行分解,得到分解结果;
S36:利用所述分解结果对各所述机器人的捕获时间进行更新,得到更新后的捕获时间;
S37:根据所述更新后的时间和各所述机器人的分布,得到各所述机器人更新后的运行策略。
可选择地,所述步骤S32中,所述目标机器人的集中训练式的值分布贝尔曼算子
Figure BDA0003864903140000031
为:
Figure BDA0003864903140000032
其中,
Figure BDA0003864903140000033
表示目标机器人t时刻的概率密度函数,at表示目标机器人t时刻的行为,:=表示等价于,o≤t表示目标机器人t时刻之前的历史联合观测值,rt表示t时刻交互环境给的反馈,
Figure BDA0003864903140000034
表示目标机器人t+1时刻的概率密度函数,o≤t+1表示目标机器人t+1时刻之前的历史联合观测值,at+1表示目标机器人t+1时刻的行为。
可选择地,在所述步骤S1之前,所述多机器人搜索方法还包括:
接收云端下发的初始运行策略;
根据初始运行策略控制交互环境内所有机器人执行运行指令;或者
接收云端下发的搜索目标请求;
根据所述搜索目标请求生成初始运行策略;
根据初始运行策略控制交互环境内所有机器人执行运行指令。
本发明还提供一种多机器人搜索方法,应用于云端,所述多机器人搜索方法包括:
接收用户下发的搜索目标请求;
根据所述搜索目标请求生成初始运行策略;
将初始运行策略群发至所述交换环境内所有机器人;或者
接收用户下发的搜索目标请求;
将所述搜索目标请求群发至所述交互环境内所有机器人。
本发明还提供一种多机器人搜索方法,应用于执行端,所述多机器人搜索方法包括:
根据当前运行策略下的控制指令,执行运行/搜索,生成当前运行结果/搜索结果;
将所述当前运行结果传输至控制端。
本发明还提供一种基于上述的多机器人搜索方法的多机器人搜索系统,所述多机器人搜索系统包括控制端,所述控制端包括:
获取模块,所述获取模块用于获取交互环境内所有机器人在当前运行策略下的当前运行结果;
第一判断模块,所述第一判断模块用于判断所述当前运行结果中是否包括搜索目标;
更新模块,所述第一更新模块用于根据所有机器人的历史运行结果对所有机器人的运行策略进行更新;
第二判断模块,所述第二判断模块用于判断当前训练次数是否达到预设次数/判断当前训练结果是否满足目标结果;和
控制模块,所述控制模块用于控制所有机器人根据各自当前运行策略执行运行命令/搜索;
第一接收模块,所述第一接收模块用于接收云端下发的初始运行策略或接收云端下发的搜索目标请求;和/或
第一运行策略生成模块,所述第一运行策略生成模块用于根据所述搜索目标请求生成初始运行策略。
可选择地,所述多机器人搜索系统还包括云端,所述云端包括:
第二接收模块,所述第二接收模块用于接收用户下发的搜索目标请求;
群发模块,所述群发模块用于将初始运行策略/搜索目标请求群发至所述交换环境内所有机器人;和/或
第二运行策略生成模块,所述第二运行策略生成模块用于根据所述搜索目标请求生成初始运行策略。
可选择地,所述多机器人搜索系统还包括执行端,所述执行端包括:
执行模块,所述执行模块用于根据当前运行策略下的控制指令,执行运行/搜索,生成当前运行结果/搜索结果;
传输模块,所述传输模块用于将所述当前运行结果传输至控制端。
本发明具有以下有益效果:
1、本发明不需要机器人之间的通信,因而能够在执行搜索过程中更加高效;
2、本发明不仅能够解决传统的最小化平均捕获时间的问题,还可以解决多种不同的可靠性搜捕问题。
附图说明
图1为本发明多机器人搜索方法的流程图。
图2为本发明多机器人搜索方法的框架图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
本发明提供一种多机器人搜索方法,应用于控制端,参考图1所示,所述多机器人搜索方法包括:
S1:获取交互环境内所有机器人在当前运行策略下的当前运行结果;
S2:判断所述当前运行结果中是否包括搜索目标,若是,训练次数加1并进入步骤S4;否则,进入步骤S3;
S3:根据所有机器人的历史运行结果对所有机器人的运行策略进行更新并将更新后的运行策略作为所述当前运行策略后返回步骤S1;
可选择地,所述步骤S3包括:
S31:获取目标机器人目标时刻的行为和目标时刻之前的历史观测值;
S32:根据所述目标机器人目标时刻的行为和目标时刻之前的历史观测值,得到目标机器人的集中训练式的值分布贝尔曼算子;
S33:利用具有记忆效果的神经网络对所述目标机器人的集中训练式的值分布贝尔曼算子进行求解,得到所述目标机器人下一时刻的概率密度函数值;
S34:重复步骤S31-S33,直到得到所有机器人下一时刻的概率密度函数值;
S35:根据所有机器人下一时刻的概率密度函数和对所有机器人下一时刻的概率密度函数值进行分解,得到分解结果;
S36:利用所述分解结果对各所述机器人的捕获时间进行更新,得到更新后的捕获时间;
S37:根据所述更新后的时间和各所述机器人的分布,得到各所述机器人更新后的运行策略。
具体地,本发明构建集中训练式的值分布贝尔曼算子对所有机器人的运行策略进行更新。使用ot表示所有机器人的联合观测值且
Figure BDA0003864903140000061
类似得,使用
Figure BDA0003864903140000062
表示所有机器人的历史联合观测值。本发明所述目标机器人i的集中训练式的值分布贝尔曼算子
Figure BDA0003864903140000063
为:
Figure BDA0003864903140000064
其中,
Figure BDA0003864903140000065
表示目标机器人i在t时刻的概率密度函数,
Figure BDA0003864903140000066
表示目标机器人i在t时刻的行为,:=表示等价于,
Figure BDA0003864903140000067
表示目标机器人i在t时刻之前的历史联合观测值,rt表示t时刻交互环境给的反馈,
Figure BDA0003864903140000068
表示目标机器人i在t+1时刻的概率密度函数,
Figure BDA0003864903140000069
表示目标机器人i在t+1时刻之前的历史联合观测值,
Figure BDA00038649031400000610
表示目标机器人i在t+1时刻的行为。
这样,可以通过不断地更新来获得最终捕获时间的概率密度函数。但是,该式的更新会随着t的增加以及机器人数量的增加变得十分复杂和难以求解,因此本发明应用一种具有记忆效果的神经网络(GRU)对其进行求解,即
Figure BDA00038649031400000611
其中
Figure BDA00038649031400000612
是一个固定长度的向量用来表示其历史观测信息的特征,从而减少计算。采取对每个机器人的分布进行加权相加得到最终捕获时间的分布,如下式:
Figure BDA0003864903140000071
其中,
Figure BDA0003864903140000072
是由一个混合神经网络产生的权重参数。经过以上的分解后,得到最终的集中训练式的值分布贝尔曼算子,如下式:
Figure BDA0003864903140000073
得到最终捕获时间的概率密度函数,然后需要对其进行分解,对每个机器人的捕获时间分布进行更新,然后再根据每个机器人各自的分布进行决策,其方法框架如图2所示。
即单个机器人通过拟合网络根据历史观测值得到自身的捕获时间概率密度函数,如果是部署环节,则直接产生决策,如果处于训练阶段,则在产生决策行为后将反馈r以及自身分布和观测值输入至混合网络进行混合得到最终捕获时间的分布,通过前文的的贝尔曼算子进行更新,然后分解更新所有的机器人拟合网络。因为该方法得到了每个机器人的捕获时间分布,所以不仅能完成最小化平均捕获时间这种传统的目标,也能实现对额外的目标的优化,如:最大化规定时间内的捕获概率,最小化捕获时间的均值与标准差的线性组合等。
S4:判断当前训练次数是否达到预设次数/判断当前训练结果是否满足目标结果,若是,进入步骤S5;否则,返回步骤S1;
S5:控制所有机器人根据各自当前运行策略执行搜索。
可选择地,在所述步骤S1之前,所述多机器人搜索方法还包括:
接收云端下发的初始运行策略;
根据初始运行策略控制交互环境内所有机器人执行运行指令;或者
接收云端下发的搜索目标请求;
根据所述搜索目标请求生成初始运行策略;
根据初始运行策略控制交互环境内所有机器人执行运行指令。
本发明还提供一种多机器人搜索方法,应用于云端,所述多机器人搜索方法包括:
接收用户下发的搜索目标请求;
根据所述搜索目标请求生成初始运行策略;
将初始运行策略群发至所述交换环境内所有机器人;或者
接收用户下发的搜索目标请求;
将所述搜索目标请求群发至所述交互环境内所有机器人。
本发明还提供一种多机器人搜索方法,应用于执行端,所述多机器人搜索方法包括:
根据当前运行策略下的控制指令,执行运行/搜索,生成当前运行结果/搜索结果;
将所述当前运行结果传输至控制端。
本发明还提供一种基于上述的多机器人搜索方法的多机器人搜索系统,所述多机器人搜索系统包括控制端,所述控制端包括:
获取模块,所述获取模块用于获取交互环境内所有机器人在当前运行策略下的当前运行结果;
第一判断模块,所述第一判断模块用于判断所述当前运行结果中是否包括搜索目标;
更新模块,所述第一更新模块用于根据所有机器人的历史运行结果对所有机器人的运行策略进行更新;
第二判断模块,所述第二判断模块用于判断当前训练次数是否达到预设次数/判断当前训练结果是否满足目标结果;和
控制模块,所述控制模块用于控制所有机器人根据各自当前运行策略执行运行命令/搜索;
第一接收模块,所述第一接收模块用于接收云端下发的初始运行策略或接收云端下发的搜索目标请求;和/或
第一运行策略生成模块,所述第一运行策略生成模块用于根据所述搜索目标请求生成初始运行策略。
可选择地,所述多机器人搜索系统还包括云端,所述云端包括:
第二接收模块,所述第二接收模块用于接收用户下发的搜索目标请求;
群发模块,所述群发模块用于将初始运行策略/搜索目标请求群发至所述交换环境内所有机器人;和/或
第二运行策略生成模块,所述第二运行策略生成模块用于根据所述搜索目标请求生成初始运行策略。
可选择地,所述多机器人搜索系统还包括执行端,所述执行端包括:
执行模块,所述执行模块用于根据当前运行策略下的控制指令,执行运行/搜索,生成当前运行结果/搜索结果;
传输模块,所述传输模块用于将所述当前运行结果传输至控制端。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种多机器人搜索方法,其特征在于,应用于控制端,所述多机器人搜索方法包括:
S1:获取交互环境内所有机器人在当前运行策略下的当前运行结果;
S2:判断所述当前运行结果中是否包括搜索目标,若是,训练次数加1并进入步骤S4;否则,进入步骤S3;
S3:根据所有机器人的历史运行结果对所有机器人的运行策略进行更新并将更新后的运行策略作为所述当前运行策略后返回步骤S1;
S4:判断当前训练次数是否达到预设次数/判断当前训练结果是否满足目标结果,若是,进入步骤S5;否则,返回步骤S1;
S5:控制所有机器人根据各自当前运行策略执行搜索。
2.根据权利要求1所述的多机器人搜索方法,其特征在于,所述步骤S3中,利用集中训练式的值分布贝尔曼算子对所有机器人的运行策略进行更新。
3.根据权利要求2所述的多机器人搜索方法,其特征在于,所述步骤S3包括:
S31:获取目标机器人目标时刻的行为和目标时刻之前的历史观测值;
S32:根据所述目标机器人目标时刻的行为和目标时刻之前的历史观测值,得到目标机器人的集中训练式的值分布贝尔曼算子;
S33:利用具有记忆效果的神经网络对所述目标机器人的集中训练式的值分布贝尔曼算子进行求解,得到所述目标机器人下一时刻的概率密度函数值;
S34:重复步骤S31-S33,直到得到所有机器人下一时刻的概率密度函数值;
S35:根据所有机器人下一时刻的概率密度函数和对所有机器人下一时刻的概率密度函数值进行分解,得到分解结果;
S36:利用所述分解结果对各所述机器人的捕获时间进行更新,得到更新后的捕获时间;
S37:根据所述更新后的时间和各所述机器人的分布,得到各所述机器人更新后的运行策略。
4.根据权利要求3所述的多机器人搜索方法,其特征在于,所述步骤S32中,所述目标机器人的集中训练式的值分布贝尔曼算子
Figure FDA0003864903130000021
为:
Figure FDA0003864903130000022
其中,
Figure FDA0003864903130000023
表示目标机器人t时刻的概率密度函数,at表示目标机器人t时刻的行为,:=表示等价于,o≤t表示目标机器人t时刻之前的历史联合观测值,rt表示t时刻交互环境给的反馈,
Figure FDA0003864903130000024
表示目标机器人t+1时刻的概率密度函数,o≤t+1表示目标机器人t+1时刻之前的历史联合观测值,at+1表示目标机器人t+1时刻的行为。
5.根据权利要求1-4中任意一项所述的多机器人搜索方法,其特征在于,在所述步骤S1之前,所述多机器人搜索方法还包括:
接收云端下发的初始运行策略;
根据初始运行策略控制交互环境内所有机器人执行运行指令;或者
接收云端下发的搜索目标请求;
根据所述搜索目标请求生成初始运行策略;
根据初始运行策略控制交互环境内所有机器人执行运行指令。
6.一种多机器人搜索方法,其特征在于,应用于云端,所述多机器人搜索方法包括:
接收用户下发的搜索目标请求;
根据所述搜索目标请求生成初始运行策略;
将初始运行策略群发至所述交换环境内所有机器人;或者
接收用户下发的搜索目标请求;
将所述搜索目标请求群发至所述交互环境内所有机器人。
7.一种多机器人搜索方法,其特征在于,应用于执行端,所述多机器人搜索方法包括:
根据当前运行策略下的控制指令,执行运行/搜索,生成当前运行结果/搜索结果;
将所述当前运行结果传输至控制端。
8.一种基于权利要求1-7中任意一项所述的多机器人搜索方法的多机器人搜索系统,其特征在于,所述多机器人搜索系统包括控制端,所述控制端包括:
获取模块,所述获取模块用于获取交互环境内所有机器人在当前运行策略下的当前运行结果;
第一判断模块,所述第一判断模块用于判断所述当前运行结果中是否包括搜索目标;
更新模块,所述第一更新模块用于根据所有机器人的历史运行结果对所有机器人的运行策略进行更新;
第二判断模块,所述第二判断模块用于判断当前训练次数是否达到预设次数/判断当前训练结果是否满足目标结果;和
控制模块,所述控制模块用于控制所有机器人根据各自当前运行策略执行运行命令/搜索;
第一接收模块,所述第一接收模块用于接收云端下发的初始运行策略或接收云端下发的搜索目标请求;和/或
第一运行策略生成模块,所述第一运行策略生成模块用于根据所述搜索目标请求生成初始运行策略。
9.根据权利要求8所述的多机器人搜索系统,其特征在于,所述多机器人搜索系统还包括云端,所述云端包括:
第二接收模块,所述第二接收模块用于接收用户下发的搜索目标请求;
群发模块,所述群发模块用于将初始运行策略/搜索目标请求群发至所述交换环境内所有机器人;和/或
第二运行策略生成模块,所述第二运行策略生成模块用于根据所述搜索目标请求生成初始运行策略。
10.根据权利要求8所述的多机器人搜索系统,其特征在于,所述多机器人搜索系统还包括执行端,所述执行端包括:
执行模块,所述执行模块用于根据当前运行策略下的控制指令,执行运行/搜索,生成当前运行结果/搜索结果;
传输模块,所述传输模块用于将所述当前运行结果传输至控制端。
CN202211175076.9A 2022-09-26 2022-09-26 一种多机器人搜索方法及系统 Active CN115494844B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211175076.9A CN115494844B (zh) 2022-09-26 2022-09-26 一种多机器人搜索方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211175076.9A CN115494844B (zh) 2022-09-26 2022-09-26 一种多机器人搜索方法及系统

Publications (2)

Publication Number Publication Date
CN115494844A true CN115494844A (zh) 2022-12-20
CN115494844B CN115494844B (zh) 2024-06-28

Family

ID=84469987

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211175076.9A Active CN115494844B (zh) 2022-09-26 2022-09-26 一种多机器人搜索方法及系统

Country Status (1)

Country Link
CN (1) CN115494844B (zh)

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018157625A1 (zh) * 2017-02-28 2018-09-07 华为技术有限公司 基于强化学习的排序学习方法及服务器
CN108873687A (zh) * 2018-07-11 2018-11-23 哈尔滨工程大学 一种基于深度q学习的智能水下机器人行为体系结规划方法
CN110174118A (zh) * 2019-05-29 2019-08-27 北京洛必德科技有限公司 基于强化学习的机器人多目标搜索路径规划方法和装置
CN110794832A (zh) * 2019-10-21 2020-02-14 同济大学 一种基于强化学习的移动机器人路径规划方法
CN111563593A (zh) * 2020-05-08 2020-08-21 北京百度网讯科技有限公司 神经网络模型的训练方法和装置
CN111563188A (zh) * 2020-04-30 2020-08-21 南京邮电大学 一种移动多智能体协同目标搜索方法
CN111687840A (zh) * 2020-06-11 2020-09-22 清华大学 一种对空间目标实施抓捕的方法、装置和存储介质
CN112511250A (zh) * 2020-12-03 2021-03-16 中国人民解放军火箭军工程大学 一种基于drl的多无人机空中基站动态部署方法及系统
CN113095498A (zh) * 2021-03-24 2021-07-09 北京大学 基于散度的多智能体合作学习方法、装置、设备及介质
CN113110455A (zh) * 2021-04-16 2021-07-13 哈尔滨工业大学 一种未知初始状态的多机器人协同探索方法、装置及系统
EP3876166A2 (en) * 2020-10-23 2021-09-08 Beijing Baidu Netcom Science And Technology Co. Ltd. Method and apparatus for determining network model pruning strategy, device and storage medium
CN113505646A (zh) * 2021-06-10 2021-10-15 清华大学 一种基于语义地图的目标搜索方法
CN114253265A (zh) * 2021-12-17 2022-03-29 成都朴为科技有限公司 基于四阶矩的按时到达概率最大路径规划算法及系统

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018157625A1 (zh) * 2017-02-28 2018-09-07 华为技术有限公司 基于强化学习的排序学习方法及服务器
CN108873687A (zh) * 2018-07-11 2018-11-23 哈尔滨工程大学 一种基于深度q学习的智能水下机器人行为体系结规划方法
CN110174118A (zh) * 2019-05-29 2019-08-27 北京洛必德科技有限公司 基于强化学习的机器人多目标搜索路径规划方法和装置
CN110794832A (zh) * 2019-10-21 2020-02-14 同济大学 一种基于强化学习的移动机器人路径规划方法
CN111563188A (zh) * 2020-04-30 2020-08-21 南京邮电大学 一种移动多智能体协同目标搜索方法
CN111563593A (zh) * 2020-05-08 2020-08-21 北京百度网讯科技有限公司 神经网络模型的训练方法和装置
CN111687840A (zh) * 2020-06-11 2020-09-22 清华大学 一种对空间目标实施抓捕的方法、装置和存储介质
EP3876166A2 (en) * 2020-10-23 2021-09-08 Beijing Baidu Netcom Science And Technology Co. Ltd. Method and apparatus for determining network model pruning strategy, device and storage medium
CN112511250A (zh) * 2020-12-03 2021-03-16 中国人民解放军火箭军工程大学 一种基于drl的多无人机空中基站动态部署方法及系统
CN113095498A (zh) * 2021-03-24 2021-07-09 北京大学 基于散度的多智能体合作学习方法、装置、设备及介质
CN113110455A (zh) * 2021-04-16 2021-07-13 哈尔滨工业大学 一种未知初始状态的多机器人协同探索方法、装置及系统
CN113505646A (zh) * 2021-06-10 2021-10-15 清华大学 一种基于语义地图的目标搜索方法
CN114253265A (zh) * 2021-12-17 2022-03-29 成都朴为科技有限公司 基于四阶矩的按时到达概率最大路径规划算法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
徐雪松 等: "基于个体-协同触发强化学习的多机器人行为决策方法", 仪器仪表学报, vol. 41, no. 5, 31 May 2022 (2022-05-31), pages 66 - 73 *
狄小娟: "基于强化学习的移动多智能体自组织协同目标搜索", 中国优秀硕士论文全文数据库 信息科技 *

Also Published As

Publication number Publication date
CN115494844B (zh) 2024-06-28

Similar Documents

Publication Publication Date Title
CN112615379B (zh) 基于分布式多智能体强化学习的电网多断面功率控制方法
Wang et al. Direct adaptive fuzzy tracking control for a class of perturbed strict-feedback nonlinear systems
Melin et al. Optimal design of type-2 and type-1 fuzzy tracking controllers for autonomous mobile robots under perturbed torques using a new chemical optimization paradigm
Yu et al. Multiagent learning of coordination in loosely coupled multiagent systems
CN102402712A (zh) 基于神经网络的机器人强化学习初始化方法
Eker et al. Solving decentralized POMDP problems using genetic algorithms
CN115099124A (zh) 一种多智能体分布协同训练仿真方法
Martini et al. Pic4rl-gym: a ros2 modular framework for robots autonomous navigation with deep reinforcement learning
CN114895710A (zh) 一种无人机集群自主行为的控制方法及系统
Sui et al. Observer-based event-triggered bipartite consensus for nonlinear multi-agent systems: Asymmetric full-state constraints
CN115494844B (zh) 一种多机器人搜索方法及系统
Chen et al. Survey of multi-agent strategy based on reinforcement learning
Zhou et al. Multi-agent cooperation by reinforcement learning with teammate modeling and reward allotment
CN116362109B (zh) 一种基于数字孪生的智能无人系统和方法
Zhu et al. A novel method combining leader-following control and reinforcement learning for pursuit evasion games of multi-agent systems
Astudillo et al. Optimization of a fuzzy tracking controller for an autonomous mobile robot under perturbed torques by means of a chemical optimization paradigm
Zamuda et al. Improving constrained glider trajectories for ocean eddy border sampling within extended mission planning time
CN115150335B (zh) 一种基于深度强化学习的最优流量分割的方法和系统
Alhassan et al. Towards Congestion Control Approach Based on Weighted Random Early Detection and Type-2 Fuzzy Logic System
Wang et al. Self-triggered distributed model predictive control of nonholonomic systems
Lin et al. A recurrent neural fuzzy controller based on self‐organizing improved particle swarm optimization for a magnetic levitation system
Zhan et al. Differential evolution for power electronic circuit optimization
CN114980172A (zh) 一种基于边缘计算和元深度强化学习的多任务路由优化方法
CN111314015B (zh) 一种基于强化学习的脉冲干扰决策方法
Balázs et al. Comparative investigation of various evolutionary and memetic algorithms

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant