CN109116854B - 一种基于强化学习的多组机器人协作控制方法及控制系统 - Google Patents

一种基于强化学习的多组机器人协作控制方法及控制系统 Download PDF

Info

Publication number
CN109116854B
CN109116854B CN201811077944.3A CN201811077944A CN109116854B CN 109116854 B CN109116854 B CN 109116854B CN 201811077944 A CN201811077944 A CN 201811077944A CN 109116854 B CN109116854 B CN 109116854B
Authority
CN
China
Prior art keywords
action
state
robot
group
robots
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811077944.3A
Other languages
English (en)
Other versions
CN109116854A (zh
Inventor
陈春林
王岚
刁敏敏
唐开强
任其成
王子辉
朱长青
辛博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Original Assignee
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University filed Critical Nanjing University
Priority to CN201811077944.3A priority Critical patent/CN109116854B/zh
Publication of CN109116854A publication Critical patent/CN109116854A/zh
Application granted granted Critical
Publication of CN109116854B publication Critical patent/CN109116854B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0221Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0287Control of position or course in two dimensions specially adapted to land vehicles involving a plurality of land vehicles, e.g. fleet or convoy travelling

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Manipulator (AREA)
  • Feedback Control In General (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本发明提供了一种基于强化学习的多组机器人协作控制方法及系统。方法步骤包括:强化学习生成状态动作表、组内各个机器人彼此共享强化学习结果、相遇时分享状态动作表生成全环境状态动作集合以及利用全环境状态动作集合来对各组机器人进行协作控制。系统包括环境建图模块、组内学习共享模块、组间学习共享模块以及协作控制模块。该多组机器人协作控制方法及系统通过强化学习算法学习出单个机器人在相应状态下的动作,并以此为基础,进行组内交互,共享一个机器人组的学习效果,最终在组间机器人相遇时,共享所有组内信息,并进行机器人避让,提高强化学习的效率;利用组间多机器人迁移学习机制,提高在大面积空间下的多机器人导航效率。

Description

一种基于强化学习的多组机器人协作控制方法及控制系统
技术领域
本发明涉及一种多组机器人协作控制方法及控制系统,尤其是一种用于仓储物流的基于强化学习的多组机器人协作控制方法及控制系统。
背景技术
在传统的工业机器人逐渐取代单调、重复性高、危险性强的工作之时,机器人的协作工作也将会慢慢渗入各个工业领域。机器人及机器人组之间的协作便于管理,能够有效提高生产工作效率,节省时间,因此在仓储物流中的应用尤为广泛。在多组机器人协作控制系统研究中,重点是如何进行机器人组内和组间的有效信息交互,实现多组机器人协作的有效控制。
多组机器人的使用能够比单个或单组机器人更加有效地完成一些任务。与一个强大而昂贵的机器人相比,多个低成本机器人相互协作因为冗余而具有更强的容错性。此外,多机器人系统还有更广泛的任务领域、鲁棒性、内在的并行性等特点。一方面,由于任务的复杂性,在单组机器人难以完成任务时,可通过多组机器人之间的合作来完成;另一方面,通过多组机器人间的合作,可提高机器人系统在作业过程中的效率,进而当工作环境发生变化或机器人系统局部发生故障时,多组机器人系统仍可通过本身具有的合作关系完成预定的任务。因此,有必要提供一种用于仓储物流的多组机器人协作控制方法,来满足仓储物流的应用需求。
发明内容
本发明要解决的技术问题是现有的多组机器人算法在机器人相遇时难以高效避让以及进行信息交互。
为了解决上述技术问题,本发明提供了一种基于强化学习的多组机器人协作控制方法,包括如下步骤:
步骤1,对机器人所处环境进行栅格化处理得到环境栅格,使得通道信息转化为有限状态集合,由各组机器人根据有限状态集合对所处环境进行强化学习生成状态动作表;
步骤2,组内各个机器人彼此共享强化学习结果;
步骤3,组间机器人相遇时进行避让控制,并分享各自组内的状态动作表,确定当前状态下机器人选择的动作,从而进一步生成全环境状态动作集合;
步骤4,利用生成的全环境状态动作集合来对各组机器人进行协作控制。
作为本发明方法的进一步限定方案,步骤1中,各组机器人根据有限状态集合对所处环境进行强化学习生成状态动作表的具体步骤为:
步骤1.1,根据有限状态集合在Matlab中构建机器人导航模型;
步骤1.2,利用策略值函数来描述导航过程的预期收益为:
Qπ(st,at)=E[Rt|st,at] (1)
式(1)中,Rt为时刻t获得的折扣后的未来收益总和,π为避障的目标策略,由于避障的目标策略π是预设确定的,记为函数μ:S←A,S为状态空间,A为动作空间,st为状态空间S中的参数,at为动作空间A中的参数,再利用贝尔曼方程对式(1)进行处理得到:
Q*(st,at)=E[r(st,at)+γmaxQ*(st+1,a't+1)] (2)
式(2)中,γ∈[0,1]为折扣因子,r(st,at)表示t时刻从环境获得的回报值,maxQ*(st+1,a't+1)表示机器人下一个状态所采取动作的最大回报值;
步骤1.3,建立贝尔曼方程逼近的强化学习单步算法为:
Figure GDA0002910594970000021
式(3)中,rt+1是机器人在状态st+1采取动作at+1的最大回报值,γ∈[0,1]为折扣因子,
Figure GDA0002910594970000022
为学习率;
步骤1.4,根据构建的机器人导航模型并利用建立的强化学习单步算法获得机器人导航模型中各个状态下的各个动作,再根据回报值对各个状态下的各个动作进行优选排序,从而便于机器人确定下一步所要采取的动作,以各个状态及其优选排序的动作对应生成状态动作表。
作为本发明方法的进一步限定方案,步骤2中,组内机器人采用值函数迁移的方式完成组内彼此共享强化学习结果。
作为本发明方法的进一步限定方案,步骤3中,组间机器人相遇时进行避让控制的具体步骤为:
步骤3.1,当分属于两组的两个机器人相遇且导航路径冲突时,两个机器人根据状态动作表分别选择优选方案和次选方案进行避让;
步骤3.2,制定动作交互函数对机器人原有动作进行定义,动作交互函数为:
Figure GDA0002910594970000023
式(4)中,(i,j)表示机器人在环境中的对应坐标,i,j=1,2,3…,k表示对应的动作,k=0,1,2,3,4,k=0表示静止,k=1表示前进,k=2表示后退,k=3表示左移,k=4表示右移,由动作得到相应动作的Q值;
步骤3.3,根据动作交互函数对相遇且导航路径冲突的两个机器人进行避让动作控制。
本发明还提供了一种基于强化学习的多组机器人协作控制系统,包括环境建图模块、组内学习共享模块、组间学习共享模块以及协作控制模块;
环境建图模块,用于对机器人所处环境进行栅格化处理得到环境栅格,使得通道信息转化为有限状态集合,由各组机器人根据有限状态集合对所处环境进行强化学习生成状态动作表;
组内学习共享模块,用于组内各个机器人彼此共享强化学习结果;
组间学习共享模块,用于组间机器人相遇时进行避让控制,并分享各自组内的状态动作表,确定当前状态下机器人选择的动作,从而进一步生成全环境状态动作集合;
协作控制模块,用于利用生成的全环境状态动作集合来对各组机器人进行协作控制。
作为本发明系统的进一步限定方案,环境建图模块生成状态动作表时,首先根据有限状态集合在Matlab中构建机器人导航模型;再利用策略值函数来描述导航过程的预期收益为:
Qπ(st,at)=E[Rt|st,at] (1)
式(1)中,Rt为时刻t获得的折扣后的未来收益总和,π为避障的目标策略,由于避障的目标策略π是预设确定的,记为函数μ:S←A,S为状态空间,A为动作空间,st为状态空间S中的参数,at为动作空间A中的参数,再利用贝尔曼方程对式(1)进行处理得到:
Q*(st,at)=E[r(st,at)+γmaxQ*(st+1,a't+1)] (2)
式(2)中,γ∈[0,1]为折扣因子,r(st,at)表示t时刻从环境获得的回报值,maxQ*(st+1,a't+1)表示机器人下一个状态所采取动作的最大回报值;
再建立贝尔曼方程逼近的强化学习单步算法为:
Figure GDA0002910594970000031
式(3)中,rt+1是机器人在状态st+1采取动作at+1的最大回报值,γ∈[0,1]为折扣因子,
Figure GDA0002910594970000032
为学习率;
最后根据构建的机器人导航模型并利用建立的强化学习单步算法获得机器人导航模型中各个状态下的各个动作,再根据回报值对各个状态下的各个动作进行优选排序,从而便于机器人确定下一步所要采取的动作,以各个状态及其优选排序的动作对应生成状态动作表。
作为本发明系统的进一步限定方案,组内学习共享模块采用值函数迁移的方式完成组内彼此共享强化学习结果。
作为本发明系统的进一步限定方案,组间学习共享模块在进行避让控制时,控制两个机器人根据状态动作表分别选择优选方案和次选方案进行避让;制定动作交互函数对机器人原有动作进行定义,动作交互函数为:
Figure GDA0002910594970000041
式(4)中,(i,j)表示机器人在环境中的对应坐标,i,j=1,2,3…,k表示对应的动作,k=0,1,2,3,4,k=0表示静止,k=1表示前进,k=2表示后退,k=3表示左移,k=4表示右移;再根据动作交互函数对相遇且导航路径冲突的两个机器人进行避让动作控制。
本发明的有益效果在于:(1)把所处环境栅格化,将通道信息转化为有限的状态集合,相当于把仓储机器人的导航避障问题离散化,可以将其看成一个马尔科夫决策过程;(2)通过强化学习算法学习出单个机器人在相应状态下的动作,并以此为基础,进行组内交互,共享一个机器人组的学习效果,最终在组间机器人相遇时,共享所有组内信息,并进行机器人避让,提高强化学习的效率;(3)利用组间多机器人迁移学习机制,提高在大面积空间下的多机器人导航效率。
附图说明
图1为本发明的方法流程图。
具体实施方式
如图1所示,本发明提供的基于强化学习的多组机器人协作控制方法包括如下步骤:
步骤1,对机器人所处环境进行栅格化处理得到环境栅格,使得通道信息转化为有限状态集合,由各组机器人根据有限状态集合对所处环境进行强化学习生成状态动作表;
步骤2,组内各个机器人彼此共享强化学习结果;
步骤3,组间机器人相遇时进行避让控制,并分享各自组内的状态动作表,确定当前状态下机器人选择的动作,从而进一步生成全环境状态动作集合;
步骤4,利用生成的全环境状态动作集合来对各组机器人进行协作控制。
作为本发明方法的进一步限定方案,步骤1中,各组机器人根据有限状态集合对所处环境进行强化学习生成状态动作表的具体步骤为:
步骤1.1,根据有限状态集合在Matlab中构建机器人导航模型;
步骤1.2,利用策略值函数来描述导航过程的预期收益为:
Qπ(st,at)=E[Rt|st,at] (1)
式(1)中,Rt为时刻t获得的折扣后的未来收益总和,π为避障的目标策略,由于避障的目标策略π是预设确定的,记为函数μ:S←A,S为状态空间,A为动作空间,st为状态空间S中的参数,at为动作空间A中的参数,再利用贝尔曼方程对式(1)进行处理得到:
Figure GDA0002910594970000051
式(2)中,γ∈[0,1]为折扣因子,r(st,at)表示t时刻从环境获得的回报值,maxQ*(st+1,a't+1)表示机器人下一个状态所采取动作的最大回报值;
步骤1.3,建立贝尔曼方程逼近的强化学习单步算法为:
Figure GDA0002910594970000052
式(3)中,rt+1是机器人在状态st+1采取动作at+1的最大回报值,γ∈[0,1]为折扣因子,
Figure GDA0002910594970000053
为学习率;
步骤1.4,根据构建的机器人导航模型并利用建立的强化学习单步算法获得机器人导航模型中各个状态下的各个动作,再根据回报值对各个状态下的各个动作进行优选排序,从而便于机器人确定下一步所要采取的动作,以各个状态及其优选排序的动作对应生成状态动作表。
作为本发明方法的进一步限定方案,步骤2中,组内机器人采用值函数迁移的方式完成组内彼此共享强化学习结果。
作为本发明方法的进一步限定方案,步骤3中,组间机器人相遇时进行避让控制的具体步骤为:
步骤3.1,当分属于两组的两个机器人相遇且导航路径冲突时,两个机器人根据状态动作表分别选择优选方案和次选方案进行避让;
步骤3.2,制定动作交互函数对机器人原有动作进行定义,动作交互函数为:
Figure GDA0002910594970000054
式(4)中,(i,j)表示机器人在环境中的对应坐标,i,j=1,2,3…,k表示对应的动作,k=0,1,2,3,4,k=0表示静止,k=1表示前进,k=2表示后退,k=3表示左移,k=4表示右移;
步骤3.3,根据动作交互函数对相遇且导航路径冲突的两个机器人进行避让动作控制。
本发明还提供了一种基于强化学习的多组机器人协作控制系统,包括环境建图模块、组内学习共享模块、组间学习共享模块以及协作控制模块;
环境建图模块,用于对机器人所处环境进行栅格化处理得到环境栅格,使得通道信息转化为有限状态集合,由各组机器人根据有限状态集合对所处环境进行强化学习生成状态动作表;
组内学习共享模块,用于组内各个机器人彼此共享强化学习结果;
组间学习共享模块,用于组间机器人相遇时进行避让控制,并分享各自组内的状态动作表,确定当前状态下机器人选择的动作,从而进一步生成全环境状态动作集合;
协作控制模块,用于利用生成的全环境状态动作集合来对各组机器人进行协作控制。
作为本发明系统的进一步限定方案,环境建图模块生成状态动作表时,首先根据有限状态集合在Matlab中构建机器人导航模型;再利用策略值函数来描述导航过程的预期收益为:
Qπ(st,at)=E[Rt|st,at] (1)
式(1)中,Rt为时刻t获得的折扣后的未来收益总和,π为避障的目标策略,由于避障的目标策略π是预设确定的,记为函数μ:S←A,S为状态空间,A为动作空间,st为状态空间S中的参数,at为动作空间A中的参数,再利用贝尔曼方程对式(1)进行处理得到:
Q*(st,at)=E[r(st,at)+γmaxQ*(st+1,a't+1)] (2)
式(2)中,γ∈[0,1]为折扣因子,r(st,at)表示t时刻从环境获得的回报值,maxQ*(st+1,a't+1)表示机器人下一个状态所采取动作的最大回报值;
再建立贝尔曼方程逼近的强化学习单步算法为:
Figure GDA0002910594970000061
式(3)中,rt+1是机器人在状态st+1采取动作at+1的最大回报值,γ∈[0,1]为折扣因子,
Figure GDA0002910594970000062
为学习率;
最后根据构建的机器人导航模型并利用建立的强化学习单步算法获得机器人导航模型中各个状态下的各个动作,再根据回报值对各个状态下的各个动作进行优选排序,从而便于机器人确定下一步所要采取的动作,以各个状态及其优选排序的动作对应生成状态动作表。在强化学习时为了保证Q学习算法收敛,采用ε-greedy策略作为动作选择策略,在继承已学知识的基础上,还具有一定的探索能力。
作为本发明系统的进一步限定方案,组内学习共享模块采用值函数迁移的方式完成组内彼此共享强化学习结果。仓储范围较大,依靠单个机器人学完所有的环境,需要耗费大量的时间,因此,组内多机器人的协作尤为重要,采用值函数迁移的方式完成组内机器人的学习经验共享,扩大机器人认知的范围,提高环境面积大的情况下的强化学习效率,减少重复计算对计算资源的浪费。
作为本发明系统的进一步限定方案,组间学习共享模块在进行避让控制时,控制两个机器人根据状态动作表分别选择优选方案和次选方案进行避让;制定动作交互函数对机器人原有动作进行定义,动作交互函数为:
Figure GDA0002910594970000071
式(4)中,(i,j)表示机器人在环境中的对应坐标,i,j=1,2,3…,k表示对应的动作,k=0,1,2,3,4,k=0表示静止,k=1表示前进,k=2表示后退,k=3表示左移,k=4表示右移;再根据动作交互函数对相遇且导航路径冲突的两个机器人进行避让动作控制。
强化学习控制中的迁移机制是通过多智能体多级交互值函数迁移的方法学习出来的,而并非依赖于传统强化学习的实验结果;机器人相遇避障过程被分解为确定当前状态和采取相应的最优动作这两个步骤;通过组内机器人信息交互,提高区域内学习效率,通过大范围内机器人组间交互,提高机器人在大范围环境中的适应性,减少传统强化学习的学习量,提高学习效率。利用强化学习控制和多组智能体迁移学习相结合的方法,可以有效的解决强化学习控制中计算量巨大这一问题。把机器人的导航信息转化为一个有限的状态集合,继而把机器人的导航过程看成一个马尔科夫决策过程,然后通过分层强化学习的方法,学习出单个组内机器人在相应状态所要采取的最优动作,并且通过无线通信,共享组间学习结果,在大面积环境下具有高效的路径选择策略。

Claims (4)

1.一种基于强化学习的多组机器人协作控制方法,其特征在于,包括如下步骤:
步骤1,对机器人所处环境进行栅格化处理得到环境栅格,使得通道信息转化为有限状态集合,由各组机器人根据有限状态集合对所处环境进行强化学习生成状态动作表;
步骤2,组内各个机器人彼此共享强化学习结果;
步骤3,组间机器人相遇时进行避让控制,并分享各自组内的状态动作表,确定当前状态下机器人选择的动作,从而进一步生成全环境状态动作集合;
步骤4,利用生成的全环境状态动作集合来对各组机器人进行协作控制;
步骤1中,各组机器人根据有限状态集合对所处环境进行强化学习生成状态动作表的具体步骤为:
步骤1.1,根据有限状态集合在Matlab中构建机器人导航模型;
步骤1.2,利用策略值函数来描述导航过程的预期收益为:
Qπ(st,at)=E[Rt|st,at] (1)
式(1)中,Rt为时刻t获得的折扣后的未来收益总和,π为避障的目标策略,由于避障的目标策略π是预设确定的,记为函数μ:S←A,S为状态空间,A为动作空间,st为状态空间S中的参数,at为动作空间A中的参数,再利用贝尔曼方程对式(1)进行处理得到:
Q*(st,at)=E[r(st,at)+γmaxQ*(st+1,a't+1)] (2)
式(2)中,γ∈[0,1]为折扣因子,r(st,at)表示t时刻从环境获得的回报值,maxQ*(st+1,a't+1)表示机器人下一个状态所采取动作的最大回报值;
步骤1.3,建立贝尔曼方程逼近的强化学习单步算法为:
Figure FDA0002910594960000011
式(3)中,rt+1是机器人在状态st+1采取动作at+1的瞬时回报值,γ∈[0,1]为折扣因子,
Figure FDA0002910594960000012
为学习率;
步骤1.4,根据构建的机器人导航模型并利用建立的强化学习单步算法获得机器人导航模型中各个状态下的各个动作,再根据回报值对各个状态下的各个动作进行优选排序,从而便于机器人确定下一步所要采取的动作,以各个状态及其优选排序的动作对应生成状态动作表;
步骤3中,组间机器人相遇时进行避让控制的具体步骤为:
步骤3.1,当分属于两组的两个机器人相遇且导航路径冲突时,两个机器人根据状态动作表分别选择优选方案和次选方案进行避让;
步骤3.2,制定动作交互函数对机器人原有动作进行定义,动作交互函数为:
Figure FDA0002910594960000021
式(4)中,(i,j)表示机器人在环境中的对应坐标,i,j=1,2,3…,k表示对应的动作,k=0,1,2,3,4,k=0表示静止,k=1表示前进,k=2表示后退,k=3表示左移,k=4表示右移,由移动方向得到相对应的Q值;
步骤3.3,根据动作交互函数对相遇且导航路径冲突的两个机器人进行避让动作控制。
2.根据权利要求1所述的基于强化学习的多组机器人协作控制方法,其特征在于,步骤2中,组内机器人采用值函数迁移的方式完成组内彼此共享强化学习结果。
3.一种基于强化学习的多组机器人协作控制系统,其特征在于,包括环境建图模块、组内学习共享模块、组间学习共享模块以及协作控制模块;
环境建图模块,用于对机器人所处环境进行栅格化处理得到环境栅格,使得通道信息转化为有限状态集合,由各组机器人根据有限状态集合对所处环境进行强化学习生成状态动作表;
组内学习共享模块,用于组内各个机器人彼此共享强化学习结果;
组间学习共享模块,用于组间机器人相遇时进行避让控制,并分享各自组内的状态动作表,确定当前状态下机器人选择的动作,从而进一步生成全环境状态动作集合;
协作控制模块,用于利用生成的全环境状态动作集合来对各组机器人进行协作控制;
环境建图模块生成状态动作表时,首先根据有限状态集合在Matlab中构建机器人导航模型;再利用策略值函数来描述导航过程的预期收益为:
Qπ(st,at)=E[Rt|st,at] (1)
式(1)中,Rt为时刻t获得的折扣后的未来收益总和,π为避障的目标策略,由于避障的目标策略π是预设确定的,记为函数μ:S←A,S为状态空间,A为动作空间,st为状态空间S中的参数,at为动作空间A中的参数,再利用贝尔曼方程对式(1)进行处理得到:
Q*(st,at)=E[r(st,at)+γmaxQ*(st+1,a't+1)] (2)
式(2)中,γ∈[0,1]为折扣因子,r(st,at)表示t时刻从环境获得的回报值,maxQ*(st+1,a't+1)表示机器人下一个状态所采取动作的最大回报值;
再建立贝尔曼方程逼近的强化学习单步算法为:
Figure FDA0002910594960000031
式(3)中,rt+1是机器人在状态st+1采取动作at+1的最大回报值,γ∈[0,1]为折扣因子,
Figure FDA0002910594960000033
为学习率;
最后根据构建的机器人导航模型并利用建立的强化学习单步算法获得机器人导航模型中各个状态下的各个动作,再根据回报值对各个状态下的各个动作进行优选排序,从而便于机器人确定下一步所要采取的动作,以各个状态及其优选排序的动作对应生成状态动作表;
组间学习共享模块在进行避让控制时,控制两个机器人根据状态动作表分别选择优选方案和次选方案进行避让;制定动作交互函数对机器人原有动作进行定义,动作交互函数为:
Figure FDA0002910594960000032
式(4)中,(i,j)表示机器人在环境中的对应坐标,i,j=1,2,3…,k表示对应的动作,k=0,1,2,3,4,k=0表示静止,k=1表示前进,k=2表示后退,k=3表示左移,k=4表示右移;再根据动作交互函数对相遇且导航路径冲突的两个机器人进行避让动作控制。
4.根据权利要求3所述的基于强化学习的多组机器人协作控制系统,其特征在于,组内学习共享模块采用值函数迁移的方式完成组内彼此共享强化学习结果。
CN201811077944.3A 2018-09-16 2018-09-16 一种基于强化学习的多组机器人协作控制方法及控制系统 Active CN109116854B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811077944.3A CN109116854B (zh) 2018-09-16 2018-09-16 一种基于强化学习的多组机器人协作控制方法及控制系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811077944.3A CN109116854B (zh) 2018-09-16 2018-09-16 一种基于强化学习的多组机器人协作控制方法及控制系统

Publications (2)

Publication Number Publication Date
CN109116854A CN109116854A (zh) 2019-01-01
CN109116854B true CN109116854B (zh) 2021-03-12

Family

ID=64859594

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811077944.3A Active CN109116854B (zh) 2018-09-16 2018-09-16 一种基于强化学习的多组机器人协作控制方法及控制系统

Country Status (1)

Country Link
CN (1) CN109116854B (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109617968B (zh) * 2018-12-14 2019-10-29 启元世界(北京)信息技术服务有限公司 多智能体协作系统及其智能体、智能体间的通信方法
CN110046800B (zh) * 2019-03-14 2020-09-25 南京航空航天大学 面向空间目标协同观测的卫星集群构形调整规划方法
CN109993308B (zh) * 2019-03-29 2024-05-24 深圳先进技术研究院 基于云平台共享学习系统及方法、共享平台及方法、介质
CN110471297B (zh) * 2019-07-30 2020-08-11 清华大学 多智能体协同控制方法、系统及设备
CN110926470B (zh) * 2019-09-25 2021-06-25 吉林大学珠海学院 一种agv导航控制方法及系统
CN110908377B (zh) * 2019-11-26 2021-04-27 南京大学 一种机器人导航空间约简方法
CN113534784B (zh) * 2020-04-17 2024-03-05 华为技术有限公司 智能体动作的决策方法及相关设备
CN111897316B (zh) * 2020-06-22 2021-05-14 北京航空航天大学 一种场景快变条件下的多飞行器自主决策方法
CN112034887A (zh) * 2020-09-10 2020-12-04 南京大学 无人机躲避柱状障碍物到达目标点的最优路径训练方法
CN112034888B (zh) * 2020-09-10 2021-07-30 南京大学 一种固定翼无人机自主控制协作策略训练方法
CN113095500B (zh) * 2021-03-31 2023-04-07 南开大学 一种基于多智能体强化学习的机器人追捕方法
CN113218399B (zh) * 2021-05-12 2022-10-04 天津大学 一种基于多智能体分层强化学习的迷宫导航方法及装置
CN115328143B (zh) * 2022-08-26 2023-04-18 齐齐哈尔大学 一种基于环境驱动的主从水面机器人回收导引方法
CN116021515B (zh) * 2022-12-22 2024-06-21 西南科技大学 一种基于深度强化学习的机械臂容错避障方法
CN118051035A (zh) * 2024-04-15 2024-05-17 山东大学 一种基于局部距离视野强化学习的多agv调度方法

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8290883B2 (en) * 2008-09-18 2012-10-16 Honda Motor Co., Ltd. Learning system and learning method comprising an event list database
CN102521205B (zh) * 2011-11-23 2014-12-10 河海大学常州校区 基于多Agent强化学习的机器人联合搜索方法
US8321364B1 (en) * 2012-02-08 2012-11-27 Google Inc. Method and system for including robots into social networks
EP3055785A4 (en) * 2013-10-07 2017-06-07 President and Fellows of Harvard College Computer implemented method, computer system and software for reducing errors associated with a situated interaction
EP3079106B1 (en) * 2015-04-06 2022-06-08 DeepMind Technologies Limited Selecting reinforcement learning actions using goals and observations
CN105843227B (zh) * 2016-04-15 2018-10-23 上海大学 一种基于任务密集度动态调整的多机器人协作围捕任务分配方法
CN105867427B (zh) * 2016-04-18 2018-06-26 苏州大学 一种面向动态环境的机器人寻径在线控制方法
CN106094813B (zh) * 2016-05-26 2019-01-18 华南理工大学 基于模型相关强化学习的仿人机器人步态控制方法
CN106094516A (zh) * 2016-06-08 2016-11-09 南京大学 一种基于深度强化学习的机器人自适应抓取方法
CN106502250B (zh) * 2016-11-23 2019-03-26 北京邮电大学 三维空间内多机器人编队的路径规划算法
JP6438450B2 (ja) * 2016-11-29 2018-12-12 ファナック株式会社 レーザ加工ロボットの加工順序を学習する機械学習装置、ロボットシステムおよび機械学習方法
US10748061B2 (en) * 2016-12-19 2020-08-18 Futurewei Technologies, Inc. Simultaneous localization and mapping with reinforcement learning
CN106843220B (zh) * 2017-02-27 2019-10-18 同济大学 一种多Agent围捕-觅食行为控制方法
US10949743B2 (en) * 2017-03-09 2021-03-16 Alphaics Corporation Method and system for implementing reinforcement learning agent using reinforcement learning processor
KR101877243B1 (ko) * 2017-04-25 2018-07-11 한국과학기술원 강화학습 기반의 신경망을 이용한 ap 장치 클러스터링 방법 및 강화학습 기반의 신경망을 이용한 협력 통신 장치
CN107065890B (zh) * 2017-06-02 2020-09-15 北京航空航天大学 一种无人车智能避障方法及系统
CN107150347B (zh) * 2017-06-08 2021-03-30 华南理工大学 基于人机协作的机器人感知与理解方法
CN107292344B (zh) * 2017-06-26 2020-09-18 苏州大学 一种基于环境交互的机器人实时控制方法
CN107450555A (zh) * 2017-08-30 2017-12-08 唐开强 一种基于深度强化学习的六足机器人实时步态规划方法
CN107562053A (zh) * 2017-08-30 2018-01-09 南京大学 一种基于模糊q学习的六足机器人避障方法
CN107562052B (zh) * 2017-08-30 2021-08-10 唐开强 一种基于深度强化学习的六足机器人步态规划方法
CN107748566B (zh) * 2017-09-20 2020-04-24 清华大学 一种基于强化学习的水下自主机器人固定深度控制方法
CN107832836B (zh) * 2017-11-27 2020-04-21 清华大学 无模型深度增强学习探索方法及装置
CN107967513B (zh) * 2017-12-25 2019-02-15 徐雪松 多机器人强化学习协同搜索方法及系统
CN108365969B (zh) * 2018-01-08 2020-05-05 北京邮电大学 一种基于无线传感网的自适应服务组合方法
CN108255182B (zh) * 2018-01-30 2021-05-11 上海交通大学 一种基于深度强化学习的服务机器人行人感知避障方法
CN108288094B (zh) * 2018-01-31 2021-06-29 清华大学 基于环境状态预测的深度强化学习方法及装置
CN108406767A (zh) * 2018-02-13 2018-08-17 华南理工大学 面向人机协作的机器人自主学习方法

Also Published As

Publication number Publication date
CN109116854A (zh) 2019-01-01

Similar Documents

Publication Publication Date Title
CN109116854B (zh) 一种基于强化学习的多组机器人协作控制方法及控制系统
Santiago et al. Path planning for mobile robots using genetic algorithm and probabilistic roadmap
Jun et al. Multi-objective mobile robot path planning based on improved genetic algorithm
CN102207928B (zh) 基于强化学习的多Agent污水处理决策支持系统
Ni et al. Robot path planning based on an improved genetic algorithm with variable length chromosome
CN108413963A (zh) 基于自学习蚁群算法的条形机器人路径规划方法
Wen et al. Path planning of humanoid arm based on deep deterministic policy gradient
Rajput et al. Mobile robot path planning with modified ant colony optimisation
Zhang et al. Path planning based quadtree representation for mobile robot using hybrid-simulated annealing and ant colony optimization algorithm
Cai et al. A combined hierarchical reinforcement learning based approach for multi-robot cooperative target searching in complex unknown environments
Su et al. Robot path planning based on random coding particle swarm optimization
CN107422734B (zh) 基于混沌反向花授粉算法的机器人路径规划方法
Hawari et al. Industry 4.0 with intelligent manufacturing 5G mobile robot based on genetic algorithm
Zhao et al. A fast robot path planning algorithm based on bidirectional associative learning
Chen et al. Multi-agent path finding using imitation-reinforcement learning with transformer
Zeng et al. A two-stage path planning approach for multiple car-like robots based on PH curves and a modified harmony search algorithm
Ming Solving path planning problem based on ant colony algorithm
Yu et al. AGV multi-objective path planning method based on improved cuckoo algorithm
He et al. Decentralized exploration of a structured environment based on multi-agent deep reinforcement learning
Soofiyani et al. A straight moving path planner for mobile robots in static environments using cellular automata
Schwung et al. Cooperative robot control in flexible manufacturing cells: Centralized vs. distributed approaches
Li et al. Research on model and algorithm of task allocation and path planning for multi-robot
CN106934501B (zh) 基于组合反向粒子群优化的机器人巡检路径规划方法
Han et al. Path planning of mobile robot based on improved ant colony algorithm
Xiong et al. Research on intelligent path planning technology of logistics robots based on Giraph architecture

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant