CN102521205B - 基于多Agent强化学习的机器人联合搜索方法 - Google Patents

基于多Agent强化学习的机器人联合搜索方法 Download PDF

Info

Publication number
CN102521205B
CN102521205B CN201110375450.5A CN201110375450A CN102521205B CN 102521205 B CN102521205 B CN 102521205B CN 201110375450 A CN201110375450 A CN 201110375450A CN 102521205 B CN102521205 B CN 102521205B
Authority
CN
China
Prior art keywords
robot
agent
search
action
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201110375450.5A
Other languages
English (en)
Other versions
CN102521205A (zh
Inventor
倪建军
刘明华
范新南
谭宪军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Tom Intelligent Equipment Co ltd
Original Assignee
Changzhou Campus of Hohai University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changzhou Campus of Hohai University filed Critical Changzhou Campus of Hohai University
Priority to CN201110375450.5A priority Critical patent/CN102521205B/zh
Publication of CN102521205A publication Critical patent/CN102521205A/zh
Application granted granted Critical
Publication of CN102521205B publication Critical patent/CN102521205B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Feedback Control In General (AREA)
  • Manipulator (AREA)

Abstract

本发明涉及一种多机器人联合目标搜索方法,具体涉及到一种基于多Agent强化学习的多机器人联合目标搜索方法。本发明是在目标位置不确定的情况下进行搜索,强化学习算法不仅加快搜索速度,而且提高搜索效率,有效避免机器人碰壁以及机器人之间发生碰撞等问题,特别适合应用于搜索危险的或人类无法到达的区域,从而达到节约搜索时间,拓展搜索区域,更好保护人身财产安全等目的。

Description

基于多Agent强化学习的机器人联合搜索方法
技术领域
本发明涉及一种多机器人联合目标搜索方法,具体涉及到一种基于多Agent强化学习的多机器人联合目标搜索方法。
背景技术
未知环境中的目标定位和搜索是一个很适合移动机器人去解决的问题。这种自动化的方法和其他搜索方式相比可以节省更多的时间和资源,而且还特别适合于搜索危险或人类无法到达的区域。目前,多机器人联合搜索技术正成为机器人研究领域的一个重要的方向。
多机器人系统通常需要一个由若干个专门的既有分工又有合作、既有协调又有竞争的子系统组成。用传统的集中控制或分层控制方式设计整个系统会遇到一些难以克服的困难。多Agent技术的出现为设计复杂多机器人协作系统提供了新的思路,其基本思想是把每个机器人都视为一个具有智能行为的Agent,借鉴多Agent系统的原理和方法,来进行多机器人系统的研究。
多Agent机器人完成联合搜索任务过程中,很难预测外界环境(如障碍物位置等)以及其他Agent的行为,Agent必须进行学习以适应环境的变化以及与其他Agent相互协调,因此学习和协调成为多Agent机器人联合搜索所面临的两个重要问题,而强化学习是一种重要的机器学习方法,它能够综合考虑多Agent机器人的实际运动特性和工作环境约束,有效解决多Agent机器人联合搜索时遇到的快速学习与协调控制等问题。
与传统的机器人搜索方法相比,基于多Agent强化学习的机器人联合搜索系统能够快速学习,在目标位置不确定的情况下有效地适应动态环境,完成更为复杂的任务,并且能够有效防止机器人碰壁以及机器人之间发生碰撞,以最短的时间搜索到全部目标,完成多Agent机器人联合搜索任务。
发明内容
本发明的目的是:提供一个机器人联合搜索方法,利用多Agent技术与强化学习算法相结合,使机器人完成未知环境中的目标定位和搜索等问题,从而节省更多的时间和资源,而且还特别适合于搜索危险的或人类无法到达的区域。
本发明的主要技术内容如下:
基于多Agent强化学习的机器人联合搜索方法,其步骤包括:
a、将多机器人系统中的每个机器人看作一个智能Agent,机器人Agent通过传感器可以感知到所要搜索的目标的特征信息,这些信息具有一定的强度,被抽象成Agent的具体属性;
b、目标信息的确定:机器人不仅没有环境的信息,也没有目标的具体位置信息,但所要搜索的目标都具有一些特征信息,在一定的范围内,这些信息能被机器人的传感器所感知;
c、机器人Agent利用强化学习算法中的Q学习来加快搜索速度,提高搜索成功率;Q学习是一种模型无关的强化学习算法,Q学习迭代时采用状态-动作对的立即奖赏和Q(st+1,at)作为估计函数,at表示t时刻Agent选择的动作,st+1为选择动作at后t+1时刻得到的状态;
d、确定强化学习的状态集S为目标的特征信息以及强化学习的动作集A为机器人Agent的行动方向;
e、初始化强化学习中Q学习的参数,包括学习速率α、折扣因子γ以及Q值,并设置立即回报值为r;
f、各个机器人Agent通过轮盘赌法来选择动作,即有较高Q值的动作被赋予较高的概率,但是所有动作的概率都为非0值,以保证所有状态-动作对都能被遍历到;机器人Agent通过上述方法执行动作at后,得到下一状态st+1,同时从外界环境得到立即回报值r;
g、根据Q学习中的Q值公式进行Q值的计算与更新,直到找到所要搜索的全部目标,学习结束。
上述Q学习算法的基本形式如下:
Q ( s t , a t ) ← Q ( s t , a t ) + α ( r + max b ∈ A Q ( s t + 1 , a t ) - Q ( s t , a t ) )
式中α为学习速率、α在区间(0,1)内,r为立即回报值;st为t时刻状态,st+1为t+1时刻状态,at表示t时刻Agent选择的动作,b表示t+1时刻Agent可以选择的所有动作,A为动作集。
上述的强化学习的状态集S={s1,s2,…si,…},其中si的计算公式为:
s i = I / d i , d i ≤ D 0 , d i > D
其中:I表示目标的特征信息最大强度,一般为常数;si为机器人Agent的第i个状态;di为机器人Agent在所处第i个状态时距离所搜索目标的距离;D为目标特征信息的最大可测距离;动作集A中包括机器人Agent的8个运动方向,即A={a1,a2,…,a8}。
上述的强化学习中立即回报值r设置如下:
r = 1 , t arg ets found 0 , no t arg et found - 1 , hit the wall or d ij = 0
其中dij为任意两个机器人Agent之间的距离;根据该回报值可以有效加快强化学习的学习速度,并且实现机器人Agent的自动避障,防止机器人撞墙或机器人之间发生碰撞。
上述的轮盘赌法选择动作公式为:
p ( a i | s ) = C Q ( s . a i ) / Σ j C Q ( s , a j )
其中为机器人Agent在状态s下选择动作ai的概率,i,j表示序号,ai,aj表示相对应的动作,C>0且为常量,它表示Q值对动作选择的影响程度,较大的C值会将较高的概率赋予Q值较大的动作,致使机器人Agent利用它所学到的知识来选择它认为会使回报函数最大的动作;相反,较小的C值会使其他动作有较高的概率,使机器人Agent探索当前Q值不高的动作。
借由上述技术方案,本发明至少具有下列优点:
(1)本发明将多机器人搜索应用到一种更为复杂的环境中,在环境状态未知,目标位置不确定的情况下完成搜索任务。
(2)本发明将多Agent思想应用到多机器人系统中,使机器人具有Agent的属性与功能,提高系统的自适应性。
(3)本发明利用强化学习算法加快搜索速度,提高搜索效率,在防止机器人碰壁以及机器人之间发生碰撞的同时高效地完成搜索任务,从而达到节约搜索时间,拓展搜索区域等目的。
本发明所述的基于多Agent强化学习的机器人联合搜索方法特别适合于危险的或人类无法到达区域的搜索,具有较高的实际应用价值。
本发明的具体实施方式由以下实施例及其附图详细给出。
附图说明
图1为多Agent机器人搜索示意图;
图2为强化学习结构图;
图3为Agent模型示意图;
图4为基于多Agent强化学习的机器人联合搜索系统流程图。
具体实施方式
为更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的其具体实施方式、结构、特征及其功效,详细说明如后。
本发明的研究背景如图1所示,在实际生活中经常需要利用机器人来完成搜索任务,如火灾着火点的搜寻、放射性物质或者臭源的搜寻等等,搜索环境中通常含有障碍物(墙等),搜索目标位置也是未知的。
基于多Agent强化学习的机器人联合搜索系统所涉及的强化学习算法的总体结构图如图2所示,机器人Agent从搜索环境获取状态值,并执行相应的动作作用于环境,从而获得环境反馈的强化信号。
本发明利用的机器人Agent具体模型如图3所示,每个机器人Agent内部包含有三大部分,分别是:属性部分,学习部分,控制部分;机器人Agent从环境获取信息储存在属性部分中,将属性值输入到学习部分进行强化学习,学习成功后将学到的结果即机器人Agent的运动方向输送到控制部分,由控制部分指挥机器人运动,继续作用于环境,完成搜索任务。
基于多Agent强化学习的机器人联合搜索方法,其具体流程如附图4所示,包括如下步骤:
1、根据目标的具体属性确定搜索目标的特征信息。
2、将目标的特征信息传递给Agent作为Agent的属性值。
3、基于多Agent通过强化学习来完成学习和控制功能,具体学习过程为:
a、将多机器人系统中的每个机器人看作一个智能Agent,机器人Agent通过传感器可以感知到所要搜索的目标的特征信息,这些信息具有一定的强度,被抽象成Agent的具体属性;
b、目标信息的确定:机器人不仅没有环境的信息,也没有目标的具体位置信息,但所要搜索的目标都具有一些特征信息,在一定的范围内,这些信息能被机器人的传感器所感知;这些信息在实际的应用中可能为热源的红外信号、放射性源的辐射信号或者是某些臭源的臭味等等;
c、机器人Agent利用强化学习算法中的Q学习来加快搜索速度,提高搜索成功率;Q学习是一种模型无关的强化学习算法,Q学习迭代时采用状态-动作对的立即奖赏和Q(st+1,at)作为估计函数,at表示t时刻Agent选择的动作,st+1为选择动作at后t+1时刻得到的状态;
上述Q学习算法的基本形式如下:
Q ( s t , a t ) ← Q ( s t , a t ) + α ( r + max b ∈ A Q ( s t + 1 , a t ) - Q ( s t , a t ) )
式中α为学习速率、α在区间(0,1)内,r为立即回报值;st为t时刻状态,st+1为t+1时刻状态,at表示t时刻Agent选择的动作,b表示t+1时刻Agent可以选择的所有动作,A为动作集。
d、确定强化学习的状态集S为目标的特征信息以及强化学习的动作集A为机器人Agent的行动方向;
上述的强化学习的状态集S={s1,s2,…si,…},其中si的计算公式为:
s i = I / d i , d i ≤ D 0 , d i > D
其中:I表示目标的特征信息最大强度,一般为常数;si为机器人Agent的第i个状态;di为机器人Agent在所处第i个状态时距离所搜索目标的距离;D为目标特征信息的最大可测距离;动作集A中包括机器人Agent的8个运动方向,即A={a1,a2,…,a8}。
e、初始化强化学习中Q学习的参数,包括学习速率α、折扣因子γ以及Q值,并设置立即回报值为r;
上述的强化学习中立即回报值r设置如下:
r = 1 , t arg ets found 0 , no t arg et found - 1 , hit the wall or d ij = 0
其中dij为任意两个机器人Agent之间的距离;根据该回报值可以有效加快强化学习的学习速度,并且实现机器人Agent的自动避障,防止机器人撞墙或机器人之间发生碰撞。
f、各个机器人Agent通过轮盘赌法来选择动作,即有较高Q值的动作被赋予较高的概率,但是所有动作的概率都为非0值,以保证所有状态-动作对都能被遍历到;机器人Agent通过上述方法执行动作at后,得到下一状态st+1,同时从外界环境得到立即回报值r;
上述的轮盘赌法选择动作公式为:
p ( a i | s ) = C Q ( s . a i ) / Σ j C Q ( s , a j )
其中为机器人Agent在状态s下选择动作ai的概率,i,j表示序号,ai,aj表示相对应的动作,C>0且为常量,它表示Q值对动作选择的影响程度,较大的C值会将较高的概率赋予Q值较大的动作,致使机器人Agent利用它所学到的知识来选择它认为会使回报函数最大的动作;相反,较小的C值会使其他动作有较高的概率,使机器人Agent探索当前Q值不高的动作。
g、根据Q学习中的Q值公式进行Q值的计算与更新,直到找到所要搜索的全部目标,学习结束。
4、机器人Agent进行搜索,如果发现搜索的全部目标,搜索结束任务完成,否则继续返回到确定目标特征信息部分重新搜索。
本发明将多机器人联合搜索系统应用到目标位置不确定的环境中,利用多Agent提高系统的自适应性;利用强化学习算法加快搜索速度,提高搜索效率,在避免机器人碰壁以及机器人间发生碰撞的情况下,高效地完成搜索任务,特别适合于搜索危险的或人类无法到达的区域,具有较高的实际应用价值。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,虽然本发明已以较佳实施例揭露如上,然而并非用以限定本发明,任何熟悉本专业的技术人员,在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属于本发明技术方案的范围内。

Claims (5)

1.基于多Agent强化学习的机器人联合搜索方法,其特征在于:其步骤包括:
a、将多机器人系统中的每个机器人看作一个智能Agent,机器人Agent通过传感器可以感知到所要搜索的目标的特征信息,这些信息具有一定的强度,被抽象成Agent的具体属性;
b、目标信息的确定:机器人不仅没有环境的信息,也没有目标的具体位置信息,但所要搜索的目标都具有一些特征信息,在一定的范围内,这些信息能被机器人的传感器所感知;
c、机器人Agent利用强化学习算法中的Q学习来加快搜索速度,提高搜索成功率;Q学习是一种模型无关的强化学习算法,Q学习迭代时采用状态-动作对的立即奖赏和Q(st+1,at)作为估计函数,at表示t时刻Agent选择的动作,st+1为选择动作at后t+1时刻得到的状态;
d、确定强化学习的状态集S为目标的特征信息以及强化学习的动作集A为机器人Agent的行动方向;
e、初始化强化学习中Q学习的参数,包括学习速率α、折扣因子γ以及Q值,并设置立即回报值为r;
f、各个机器人Agent通过轮盘赌法来选择动作,即有较高Q值的动作被赋予较高的概率,但是所有动作的概率都为非0值,以保证所有状态-动作对都能被遍历到;机器人Agent通过上述方法执行动作at后,得到下一状态st+1,同时从外界环境得到立即回报值r;
g、根据Q学习中的Q值公式进行Q值的计算与更新,直到找到所要搜索的全部目标,学习结束。
2.根据权利要求1所述的基于多Agent强化学习的机器人联合搜索方法,其特征在于:Q学习算法的基本形式如下:
Q ( s t , a t ) ← Q ( s t , a t ) + α ( r + max b ∈ A Q ( s t + 1 , a t ) - Q ( s t , a t ) )
式中α为学习速率,α在区间(0,1)内,r为立即回报值;st为t时刻状态,st+1为t+1时刻状态,at表示t时刻Agent选择的动作,b表示t+1时刻Agent可以选择的所有动作,A为动作集。
3.根据权利要求1所述的基于多Agent强化学习的机器人联合搜索方法,其特征在于:所述的强化学习的状态集S={s1,s2,…si,…},其中si的计算公式为:
s i = I / d i , d i ≤ D 0 , d i > D
其中:I表示目标的特征信息最大强度,一般为常数;si为机器人Agent的第i个状态;di为机器人Agent在所处第i个状态时距离所搜索目标的距离;D为目标特征信息的最大可测距离;动作集A中包括机器人Agent的8个运动方向,即A={a1,a2,…,a8}。
4.根据权利要求1所述的基于多Agent强化学习的机器人联合搜索方法,其特征在于:所述的强化学习中立即回报值r设置如下:
r = 1 , t arg etsfound 0 , not arg etfound - 1 , hitthewallor d ij = 0
其中dij为任意两个机器人Agent之间的距离;根据该回报值可以有效加快强化学习的学习速度,并且实现机器人Agent的自动避障,防止机器人撞墙或机器人之间发生碰撞。
5.根据权利要求1所述的基于多Agent强化学习的机器人联合搜索方法,其特征在于:所述的轮盘赌法选择动作公式为:
p ( a i | s ) = C Q ( s , a i ) / Σ j C Q ( s , a j )
其中p(ai|s)为机器人Agent在状态s下选择动作ai的概率,i,j表示序号,ai,aj表示相应的动作,C>0且为常量,它表示Q值对动作选择的影响程度,较大的C值会将较高的概率赋予Q值较大的动作,致使机器人Agent利用它所学到的知识来选择它认为会使回报函数最大的动作;相反,较小的C值会使其他动作有较高的概率,使机器人Agent探索当前Q值不高的动作。
CN201110375450.5A 2011-11-23 2011-11-23 基于多Agent强化学习的机器人联合搜索方法 Active CN102521205B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110375450.5A CN102521205B (zh) 2011-11-23 2011-11-23 基于多Agent强化学习的机器人联合搜索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110375450.5A CN102521205B (zh) 2011-11-23 2011-11-23 基于多Agent强化学习的机器人联合搜索方法

Publications (2)

Publication Number Publication Date
CN102521205A CN102521205A (zh) 2012-06-27
CN102521205B true CN102521205B (zh) 2014-12-10

Family

ID=46292134

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110375450.5A Active CN102521205B (zh) 2011-11-23 2011-11-23 基于多Agent强化学习的机器人联合搜索方法

Country Status (1)

Country Link
CN (1) CN102521205B (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102830701B (zh) * 2012-08-30 2015-02-11 北京航空航天大学 多移动机器人系统的协调控制方法
CN102868972B (zh) * 2012-09-05 2016-04-27 河海大学常州校区 基于改进q学习算法的物联网错误传感器节点定位方法
CN102915039B (zh) * 2012-11-09 2015-08-12 河海大学常州校区 一种仿动物空间认知的多机器人联合目标搜寻方法
CN102980454B (zh) * 2012-11-09 2014-11-26 河海大学常州校区 一种基于脑机结合的机器人排爆系统的排爆方法
CN103399488B (zh) * 2013-07-31 2018-01-09 中国人民解放军国防科学技术大学 基于自学习的多模型控制方法
EP3178040A4 (en) * 2014-08-07 2018-04-04 Okinawa Institute of Science and Technology School Corporation Inverse reinforcement learning by density ratio estimation
CN105690392B (zh) * 2016-04-14 2017-11-28 苏州大学 基于行动者‑评论家方法的机器人运动控制方法和装置
CN106094516A (zh) * 2016-06-08 2016-11-09 南京大学 一种基于深度强化学习的机器人自适应抓取方法
CN106595671A (zh) * 2017-02-22 2017-04-26 南方科技大学 一种基于强化学习的无人机路径规划方法和装置
CN107330277A (zh) * 2017-07-03 2017-11-07 北京跟踪与通信技术研究所 基于多智能体增强学习算法的Walker星座轨道摄动补偿方法
CN107967513B (zh) * 2017-12-25 2019-02-15 徐雪松 多机器人强化学习协同搜索方法及系统
CN109085751B (zh) * 2018-09-16 2021-03-12 南京大学 一种基于多粒度强化学习的六足机器人导航方法
CN109116854B (zh) * 2018-09-16 2021-03-12 南京大学 一种基于强化学习的多组机器人协作控制方法及控制系统
CN109298386B (zh) * 2018-10-17 2020-10-23 中国航天系统科学与工程研究院 一种基于多智能体协同的三维未知区域快速探测方法
CN110007688B (zh) * 2019-04-25 2021-06-01 西安电子科技大学 一种基于强化学习的无人机集群分布式编队方法
CN110913246B (zh) * 2019-11-28 2022-06-28 深圳市商汤科技有限公司 图像处理方法及装置、电子设备和存储介质

Also Published As

Publication number Publication date
CN102521205A (zh) 2012-06-27

Similar Documents

Publication Publication Date Title
CN102521205B (zh) 基于多Agent强化学习的机器人联合搜索方法
JP7191843B2 (ja) 自律車両用の行動計画システム及び方法
Albrecht et al. Interpretable goal-based prediction and planning for autonomous driving
Mozaffari et al. Vehicle speed prediction via a sliding-window time series analysis and an evolutionary least learning machine: A case study on San Francisco urban roads
CN102207736B (zh) 基于贝塞尔曲线的机器人路径规划方法及装置
WO2017215044A1 (zh) 一种移动机器人的自动规划路径方法及移动机器人
CN102819264B (zh) 移动机器人路径规划q学习初始化方法
WO2020079074A2 (en) Autonomous vehicle planning
CN102799179B (zh) 基于单链序贯回溯q学习的移动机器人路径规划算法
CN102402712B (zh) 基于神经网络的机器人强化学习初始化方法
CN107479547B (zh) 基于示教学习的决策树行为决策算法
Houénou et al. Risk assessment for collision avoidance systems
Ardiyanto et al. Real-time navigation using randomized kinodynamic planning with arrival time field
CN103823466A (zh) 一种动态环境下移动机器人路径规划方法
Du et al. An improved RRT-based motion planner for autonomous vehicle in cluttered environments
Sezer Intelligent decision making for overtaking maneuver using mixed observable Markov decision process
Li et al. RRT-A* motion planning algorithm for non-holonomic mobile robot
CN111397622A (zh) 基于改进A*算法与Morphin算法的智能汽车局部路径规划方法
Yoshida et al. Online replanning for reactive robot motion: Practical aspects
Camara et al. A heuristic model for pedestrian intention estimation
Gu et al. Path planning for mobile robot in a 2.5‐dimensional grid‐based map
Chinag et al. Robot navigation in dynamic environments using fuzzy logic and trajectory prediction table
CN113778093A (zh) 基于改进麻雀搜索算法的amr自主移动机器人路径规划方法
CN112721948A (zh) 基于预测和搜索框架的自动驾驶汽车变道调度的实现方法
CN104331080A (zh) 用于移动式机器人的定点跟踪路径规划方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20200313

Address after: 213164 No.26 Fengqi Road, Changzhou high tech Industrial Development Zone, Jiangsu Province

Patentee after: JIANGSU TOM PACKAGING MACHINERY Co.,Ltd.

Address before: 213022 Jiangsu, North District, Changzhou Jin Ling North Road, No. 200

Patentee before: CHANGZHOU CAMPUS OF HOHAI University

TR01 Transfer of patent right
CP01 Change in the name or title of a patent holder

Address after: 213164 No.26 Fengqi Road, Changzhou high tech Industrial Development Zone, Jiangsu Province

Patentee after: Jiangsu Tom Intelligent Equipment Co.,Ltd.

Address before: 213164 No.26 Fengqi Road, Changzhou high tech Industrial Development Zone, Jiangsu Province

Patentee before: JIANGSU TOM PACKAGING MACHINERY Co.,Ltd.

CP01 Change in the name or title of a patent holder