CN109116854B

CN109116854B - 一种基于强化学习的多组机器人协作控制方法及控制系统

Info

Publication number: CN109116854B
Application number: CN201811077944.3A
Authority: CN
Inventors: 陈春林; 王岚; 刁敏敏; 唐开强; 任其成; 王子辉; 朱长青; 辛博
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2018-09-16
Filing date: 2018-09-16
Publication date: 2021-03-12
Anticipated expiration: 2038-09-16
Also published as: CN109116854A

Abstract

本发明提供了一种基于强化学习的多组机器人协作控制方法及系统。方法步骤包括：强化学习生成状态动作表、组内各个机器人彼此共享强化学习结果、相遇时分享状态动作表生成全环境状态动作集合以及利用全环境状态动作集合来对各组机器人进行协作控制。系统包括环境建图模块、组内学习共享模块、组间学习共享模块以及协作控制模块。该多组机器人协作控制方法及系统通过强化学习算法学习出单个机器人在相应状态下的动作，并以此为基础，进行组内交互，共享一个机器人组的学习效果，最终在组间机器人相遇时，共享所有组内信息，并进行机器人避让，提高强化学习的效率；利用组间多机器人迁移学习机制，提高在大面积空间下的多机器人导航效率。

Description

一种基于强化学习的多组机器人协作控制方法及控制系统

技术领域

本发明涉及一种多组机器人协作控制方法及控制系统，尤其是一种用于仓储物流的基于强化学习的多组机器人协作控制方法及控制系统。

背景技术

在传统的工业机器人逐渐取代单调、重复性高、危险性强的工作之时，机器人的协作工作也将会慢慢渗入各个工业领域。机器人及机器人组之间的协作便于管理，能够有效提高生产工作效率，节省时间，因此在仓储物流中的应用尤为广泛。在多组机器人协作控制系统研究中，重点是如何进行机器人组内和组间的有效信息交互，实现多组机器人协作的有效控制。

多组机器人的使用能够比单个或单组机器人更加有效地完成一些任务。与一个强大而昂贵的机器人相比，多个低成本机器人相互协作因为冗余而具有更强的容错性。此外，多机器人系统还有更广泛的任务领域、鲁棒性、内在的并行性等特点。一方面，由于任务的复杂性，在单组机器人难以完成任务时，可通过多组机器人之间的合作来完成；另一方面，通过多组机器人间的合作，可提高机器人系统在作业过程中的效率，进而当工作环境发生变化或机器人系统局部发生故障时，多组机器人系统仍可通过本身具有的合作关系完成预定的任务。因此，有必要提供一种用于仓储物流的多组机器人协作控制方法，来满足仓储物流的应用需求。

发明内容

本发明要解决的技术问题是现有的多组机器人算法在机器人相遇时难以高效避让以及进行信息交互。

为了解决上述技术问题，本发明提供了一种基于强化学习的多组机器人协作控制方法，包括如下步骤：

步骤1，对机器人所处环境进行栅格化处理得到环境栅格，使得通道信息转化为有限状态集合，由各组机器人根据有限状态集合对所处环境进行强化学习生成状态动作表；

步骤2，组内各个机器人彼此共享强化学习结果；

步骤3，组间机器人相遇时进行避让控制，并分享各自组内的状态动作表，确定当前状态下机器人选择的动作，从而进一步生成全环境状态动作集合；

步骤4，利用生成的全环境状态动作集合来对各组机器人进行协作控制。

作为本发明方法的进一步限定方案，步骤1中，各组机器人根据有限状态集合对所处环境进行强化学习生成状态动作表的具体步骤为：

步骤1.1，根据有限状态集合在Matlab中构建机器人导航模型；

步骤1.2，利用策略值函数来描述导航过程的预期收益为：

Q^π(s_t,a_t)＝E[R_t|s_t,a_t] (1)

式(1)中，R_t为时刻t获得的折扣后的未来收益总和，π为避障的目标策略，由于避障的目标策略π是预设确定的，记为函数μ:S←A，S为状态空间，A为动作空间，s_t为状态空间S中的参数，a_t为动作空间A中的参数，再利用贝尔曼方程对式(1)进行处理得到：

Q^*(s_t,a_t)＝E[r(s_t,a_t)+γmaxQ^*(s_t+1,a'_t+1)] (2)

式(2)中，γ∈[0,1]为折扣因子，r(s_t,a_t)表示t时刻从环境获得的回报值，maxQ^*(s_t+1,a'_t+1)表示机器人下一个状态所采取动作的最大回报值；

步骤1.3，建立贝尔曼方程逼近的强化学习单步算法为：

式(3)中，r_t+1是机器人在状态s_t+1采取动作a_t+1的最大回报值，γ∈[0,1]为折扣因子，

为学习率；

步骤1.4，根据构建的机器人导航模型并利用建立的强化学习单步算法获得机器人导航模型中各个状态下的各个动作，再根据回报值对各个状态下的各个动作进行优选排序，从而便于机器人确定下一步所要采取的动作，以各个状态及其优选排序的动作对应生成状态动作表。

作为本发明方法的进一步限定方案，步骤2中，组内机器人采用值函数迁移的方式完成组内彼此共享强化学习结果。

作为本发明方法的进一步限定方案，步骤3中，组间机器人相遇时进行避让控制的具体步骤为：

步骤3.1，当分属于两组的两个机器人相遇且导航路径冲突时，两个机器人根据状态动作表分别选择优选方案和次选方案进行避让；

步骤3.2，制定动作交互函数对机器人原有动作进行定义，动作交互函数为：

式(4)中，(i,j)表示机器人在环境中的对应坐标，i,j＝1,2,3…，k表示对应的动作，k＝0,1,2,3,4，k＝0表示静止，k＝1表示前进，k＝2表示后退，k＝3表示左移，k＝4表示右移，由动作得到相应动作的Q值；

步骤3.3，根据动作交互函数对相遇且导航路径冲突的两个机器人进行避让动作控制。

本发明还提供了一种基于强化学习的多组机器人协作控制系统，包括环境建图模块、组内学习共享模块、组间学习共享模块以及协作控制模块；

环境建图模块，用于对机器人所处环境进行栅格化处理得到环境栅格，使得通道信息转化为有限状态集合，由各组机器人根据有限状态集合对所处环境进行强化学习生成状态动作表；

组内学习共享模块，用于组内各个机器人彼此共享强化学习结果；

组间学习共享模块，用于组间机器人相遇时进行避让控制，并分享各自组内的状态动作表，确定当前状态下机器人选择的动作，从而进一步生成全环境状态动作集合；

协作控制模块，用于利用生成的全环境状态动作集合来对各组机器人进行协作控制。

作为本发明系统的进一步限定方案，环境建图模块生成状态动作表时，首先根据有限状态集合在Matlab中构建机器人导航模型；再利用策略值函数来描述导航过程的预期收益为：

Q^π(s_t,a_t)＝E[R_t|s_t,a_t] (1)

Q^*(s_t,a_t)＝E[r(s_t,a_t)+γmaxQ^*(s_t+1,a'_t+1)] (2)

再建立贝尔曼方程逼近的强化学习单步算法为：

为学习率；

最后根据构建的机器人导航模型并利用建立的强化学习单步算法获得机器人导航模型中各个状态下的各个动作，再根据回报值对各个状态下的各个动作进行优选排序，从而便于机器人确定下一步所要采取的动作，以各个状态及其优选排序的动作对应生成状态动作表。

作为本发明系统的进一步限定方案，组内学习共享模块采用值函数迁移的方式完成组内彼此共享强化学习结果。

作为本发明系统的进一步限定方案，组间学习共享模块在进行避让控制时，控制两个机器人根据状态动作表分别选择优选方案和次选方案进行避让；制定动作交互函数对机器人原有动作进行定义，动作交互函数为：

式(4)中，(i,j)表示机器人在环境中的对应坐标，i,j＝1,2,3…，k表示对应的动作，k＝0,1,2,3,4，k＝0表示静止，k＝1表示前进，k＝2表示后退，k＝3表示左移，k＝4表示右移；再根据动作交互函数对相遇且导航路径冲突的两个机器人进行避让动作控制。

本发明的有益效果在于：(1)把所处环境栅格化，将通道信息转化为有限的状态集合，相当于把仓储机器人的导航避障问题离散化，可以将其看成一个马尔科夫决策过程；(2)通过强化学习算法学习出单个机器人在相应状态下的动作，并以此为基础，进行组内交互，共享一个机器人组的学习效果，最终在组间机器人相遇时，共享所有组内信息，并进行机器人避让，提高强化学习的效率；(3)利用组间多机器人迁移学习机制，提高在大面积空间下的多机器人导航效率。

附图说明

图1为本发明的方法流程图。

具体实施方式

如图1所示，本发明提供的基于强化学习的多组机器人协作控制方法包括如下步骤：

步骤2，组内各个机器人彼此共享强化学习结果；

步骤1.1，根据有限状态集合在Matlab中构建机器人导航模型；

步骤1.2，利用策略值函数来描述导航过程的预期收益为：

Q^π(s_t,a_t)＝E[R_t|s_t,a_t] (1)

步骤1.3，建立贝尔曼方程逼近的强化学习单步算法为：

为学习率；

式(4)中，(i,j)表示机器人在环境中的对应坐标，i,j＝1,2,3…，k表示对应的动作，k＝0,1,2,3,4，k＝0表示静止，k＝1表示前进，k＝2表示后退，k＝3表示左移，k＝4表示右移；

Q^π(s_t,a_t)＝E[R_t|s_t,a_t] (1)

Q^*(s_t,a_t)＝E[r(s_t,a_t)+γmaxQ^*(s_t+1,a'_t+1)] (2)

再建立贝尔曼方程逼近的强化学习单步算法为：

为学习率；

最后根据构建的机器人导航模型并利用建立的强化学习单步算法获得机器人导航模型中各个状态下的各个动作，再根据回报值对各个状态下的各个动作进行优选排序，从而便于机器人确定下一步所要采取的动作，以各个状态及其优选排序的动作对应生成状态动作表。在强化学习时为了保证Q学习算法收敛，采用ε-greedy策略作为动作选择策略，在继承已学知识的基础上，还具有一定的探索能力。

作为本发明系统的进一步限定方案，组内学习共享模块采用值函数迁移的方式完成组内彼此共享强化学习结果。仓储范围较大，依靠单个机器人学完所有的环境，需要耗费大量的时间，因此，组内多机器人的协作尤为重要，采用值函数迁移的方式完成组内机器人的学习经验共享，扩大机器人认知的范围，提高环境面积大的情况下的强化学习效率，减少重复计算对计算资源的浪费。

强化学习控制中的迁移机制是通过多智能体多级交互值函数迁移的方法学习出来的，而并非依赖于传统强化学习的实验结果；机器人相遇避障过程被分解为确定当前状态和采取相应的最优动作这两个步骤；通过组内机器人信息交互，提高区域内学习效率，通过大范围内机器人组间交互，提高机器人在大范围环境中的适应性，减少传统强化学习的学习量，提高学习效率。利用强化学习控制和多组智能体迁移学习相结合的方法，可以有效的解决强化学习控制中计算量巨大这一问题。把机器人的导航信息转化为一个有限的状态集合，继而把机器人的导航过程看成一个马尔科夫决策过程，然后通过分层强化学习的方法，学习出单个组内机器人在相应状态所要采取的最优动作，并且通过无线通信，共享组间学习结果，在大面积环境下具有高效的路径选择策略。