CN111897224B

CN111897224B - 基于演员-评论家强化学习和模糊逻辑的多智能体编队控制方法

Info

Publication number: CN111897224B
Application number: CN202010811359.2A
Authority: CN
Inventors: 黄捷; 张子鹏; 王武; 蔡逢煌; 陈宇韬; 柴琴琴; 林琼斌; 张祯毅; 李卓敏
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2020-08-13
Filing date: 2020-08-13
Publication date: 2022-04-01
Anticipated expiration: 2040-08-13
Also published as: CN111897224A

Abstract

本发明提出一种基于演员‑评论家强化学习和模糊逻辑的多智能体编队控制方法，将最优控制方法引入多机器人系统领航跟随者编队控制方法中，利用模糊逻辑系统逼近连续函数的能力，解决最优控制中汉密尔顿‑雅可比‑贝尔曼方程难以求取解析解的问题；同时，结合演员‑评论家强化学习算法，形成演员模糊逻辑系统模块和评论家模糊逻辑系统模块，前者执行控制行为，后者对前者所选择的行为进行评价并将评价信息反馈给前者。该方法可以平衡控制性能和资源损耗，并且以在线学习的方式提高多机器人系统对于环境的适应性。

Description

基于演员-评论家强化学习和模糊逻辑的多智能体编队控制方法

技术领域

本发明属于器人编队控制领域，尤其涉及一种基于演员-评论家强化学习和模糊逻辑的多智能体二阶线性系统最优编队控制方法。

背景技术

在过去的十几年中，多机器人系统由于其具有较大的冗余，相较于单机器人系统具有更好的容错性和鲁棒性，且能够通过合作完成许多单机器人无法完成的任务。在多机器人系统中，机器人编队是机器人协同执行任务的控制方法之一。领航跟随者法作为编队控制技术之一，能够实现多机器人系统的分布式控制，具有灵活性高、易于使用等特点。将最优控制方法引入多机器人系统编队控制中，能够通过最小化代价函数从而实现平衡控制性能和资源损耗的控制目标。传统的最优控制一般是通过求解汉密尔顿-雅可比-贝尔曼函数实现控制，但是由于函数中的非线性因素，要求取汉密尔顿-雅可比-贝尔曼函数的解析解十分困难。

因此，为了解决这一将最优控制方法引入编队控制中的难题，可以考虑引入强化学习和模糊逻辑系统。当前现有技术提出的基于强化学习的最优编队控制问题的解决方案主要聚焦于一阶系统，对于应用范围广泛的二阶系统缺乏研究，无法提供合适的解决方案。

发明内容

为了克服现有技术存在的缺陷和不足，本发明的目的是提出一种基于演员-评论家强化学习算法和模糊逻辑系统的二阶线性系统最优编队控制算法，将强化学习与领航跟随者编队控制方法相结合，应用在二阶的线性模型中，该方法能够解决最优控制中汉密尔顿-雅可比-贝尔曼方程难以求取解析解的问题。其主要以二阶线性系统为研究对象，首先将最优控制方法引入多机器人系统领航跟随者编队控制方法中，利用模糊逻辑系统逼近连续函数的能力，解决最优控制中汉密尔顿-雅可比-贝尔曼方程难以求取解析解的问题；其次，结合演员-评论家强化学习算法，形成演员模糊逻辑系统模块和评论家模糊逻辑系统模块，前者执行控制行为，后者对前者所选择的行为进行评价并将评价信息反馈给前者；最后通过梯度下降法最小化贝尔曼余差，设计评论家模糊逻辑系统模块和演员模糊逻辑系统模块的参数向量更新律。该方法可以平衡控制性能和资源损耗，并且以在线学习的方式提高多机器人系统对于环境的适应性。

本发明具体采用以下技术方案：

一种基于演员-评论家强化学习和模糊逻辑的多智能体编队控制方法，其特征在于，包括以下步骤：

步骤S1：利用图论，建立多机器人系统中机器人之间的通讯拓扑结构，机器人只获取其邻接机器人的位置和速度信息；

步骤S2：利用邻接机器人的位置信息，建立位置误差；利用邻接机器人的速度信息，建立速度误差；并利用位置误差和速度误差建立编队误差；

步骤S3：引入最优控制策略，用于通过计算所得的编队误差求取代价函数和值函数；

步骤S4：利用泰勒公式对值函数进行展开，并求取汉密尔顿-雅可比-贝尔曼方程，获得最优控制器和最优值函数的表达形式；将最优值函数分解为编队误差项平方项和连续函数项，利用模糊逻辑系统对最优控制器和连续函数项进行近似；

步骤S5：引入演员-评论家强化学习算法，结合模糊逻辑系统，形成演员模糊逻辑系统模块和评论家模糊逻辑系统模块；所述演员模糊逻辑系统模块基于最优控制器，用于执行多机器人系统的控制行为；所述评论家模糊逻辑系统模块基于最优值函数，用于对演员模糊逻辑系统模块采取的行为做出评价，评估控制性能并反馈给演员模糊逻辑系统模块。

优选地，所述演员模糊逻辑系统模块和评论家模糊逻辑系统模块的参数向量通过基于贝尔曼余差的梯度下降法实时更新。

优选地，所述多机器人系统的具体形式为：

式中，p_i(t)为第i个机器人的位置信息，v_i(t)为第i个机器人的速度信息，u_i(e)为第i个机器人的控制器，e为编队误差量，

和

分别是位置信息和速度信息相对于时间的导数；

在步骤S2中，所述位置误差设置如下：

式中，

为位置误差，Λ_i为机器人i的邻居集，a_ij为邻接矩阵的第i行第j列的元素，b_i为机器人i于领航者的连接权重，

为机器人i与领航者的相对位置向量表述为编队形式，f_l为领航者的轨迹，即期望轨迹，p_i和p_j分别为第i个和第j个机器人的位置信息；

所述速度误差设置如下：

式中，

为速度误差，y_l为领航者的速度即期望速度，期望轨迹和期望速度满足

所述编队误差设置如下：

优选地，在步骤S3中，

所述代价函数为:

其中，C＝diag{c₁,...,c_n}且

表示克罗内克积，I_m为m阶单位矩阵；

所述值函数为:

所述最优控制策略为：设具有最优控制器u^*能够使得值函数最小，即最优值函数：

此时，构建的最优控制器和最优值函数都为未知量，仅做分析使用。

优选地，在步骤S4中，对值函数进行泰勒展开，可以求得汉密尔顿-雅可比-贝尔曼方程：

将最优值函数代入汉密尔顿-雅可比-贝尔曼方程中，将使得方程等于0，即：

假设上述方程存在唯一解，则根据公式

可以求得最优控制器的表述形式：

所述最优值函数分解为编队误差项平方项和连续函数项后的形式为：

V_i ^*(e)＝α_i||e_i||²+V_i ⁰(e_i)；

式中，V_i ⁰(e_i)＝-α_i||e_i||²+V^*(e)为连续函数，α_i为大于3的常数；

由于V_i ⁰(e_i)为连续函数，故使用模糊逻辑系统对其进行逼近，具体形式如下：

经过模糊逻辑系统处理后，最优值函数及最优控制器转化为：

式中，

和

分别为模糊基函数和近似误差对

的偏导数；

为编队误差近似值，

和

分别为机器人i位置和速度的近似值，

为最优参数矩阵，

为模糊基函数向量，

为近似误差且满足

其中κ_i为一个正的常数。

鉴于最优参数矩阵

为未知的，只能供理论分析使用，故上述最优控制器不能直接使用，因此需要引入演员-评论家强化学习算法，形成演员模糊逻辑系统模块和评论家模糊逻辑系统模块。

优选地，所述演员模糊逻辑系统模块的表达式为：

式中，

为演员参数向量；

所述评论家模糊逻辑系统模块的表达式为：

式中，

为最优值函数的近似值，

为评论家参数向量。

优选地，所述演员模糊逻辑系统模块和评论家模糊逻辑系统模块的参数向量通过基于贝尔曼余差的梯度下降法作为规则进行实时更新：

设置贝尔曼余差为：

由于所述最优控制器代入汉密尔顿-雅可比-贝尔曼方程中有

成立，故贝尔曼余差为：

定义函数：

通过梯度下降法最小化贝尔曼余差，则可得所述评论家模糊逻辑系统模块的参数向量更新律如下所示：

式中，k_ci为评论家模糊逻辑系统模块的学习速率，为大于0的常数，η_i的具体表示形式如下：

所述演员模糊逻辑系统模块的参数向量更新律如下所示：

式中，k_ai为演员模糊逻辑系统模块的学习速率，为大于0的常数。

本发明提供的基于演员-评论家强化学习算法和模糊逻辑系统的二阶线性系统最优编队控制算法，可以作为存储于存储器上并能够被处理器运行的计算机程序，当处理器运行该计算机程序时，能够实现如上文所述的方法步骤。

相较于现有技术，本发明及其优选方案针对二阶线性模型，将最优控制方法引入多机器人系统领航跟随者编队控制方法中，利用模糊逻辑系统逼近连续函数的能力，解决最优控制方法中汉密尔顿-雅可比-贝尔曼方程难以求取解析解的问题，结合演员-评论家强化学习算法，解决最优参数向量未知的难点，利用梯度下降法最小化贝尔曼余差实时更新演员模糊逻辑系统模块和评论家模糊逻辑系统模块的参数向量，提高了算法对于机器人所处环境的适应性。

附图说明

下面结合附图和具体实施方式对本发明进一步详细的说明：

图1是本发明实施例基于区域混淆神经网络方法流程示意图；

图2是本发明实施例步骤S1流程示意图；

图3是本发明实施例分类主干网络结构示意图。

具体实施方式

为让本专利的特征和优点能更明显易懂，下文特举实施例，作详细说明如下：

如图1所示，本实施例提供了一种基于演员-评论家强化学习算法和模糊逻辑系的二阶线性系统最优编队控制算法；如图2和图3所示，本实施例使用4个跟随者1个领航者进行matlab仿真举例说明。

本实施例的具体内容包括以下要点：

通过图建立机器人之间的通信拓扑，机器人之间可获取其邻接机器人的位置和速度信息；

引入最优控制策略，通过计算所得的编队误差求取代价函数和值函数；

将值函数分解为编队误差项平方项和连续函数项，利用模糊逻辑系统对连续函数项进行近似；

引入演员-评论家强化学习算法，结合模糊逻辑系统，形成演员模糊逻辑系统模块和评论家模糊逻辑系统模块，前者执行控制行为，后者对前者所选择的行为进行评价并将评价信息反馈给前者。

在本实施例中，机器人执行的任务为给定领航机器人运动轨迹和速度，跟随机器人根据由图建立的拓扑结构，获取邻接机器人或领航机器人的位置和速度信息，以特定的编队形式跟随领航机器人运动。当多机器人系统编队形式稳定，即各机器人之间相对位置固定且跟随机器人与领航机器人的速度趋于一致时，任务完成。

在本实施例中，机器人获取的信息包括以下几类：邻接机器人的位置信息、邻接机器人的速度信息，若跟随机器人与领航机器人之间具有通讯，则该跟随机器人可获取领航机器人的位置信息和速度信息。通过上述信息计算求取得编队误差量，具体的编队误差量计算如下所示：

在领航跟随者编队控制方法中引入最优控制方法，最优控制方法的核心为设计代价函数，通过最小化代价函数求取编队控制器，从而实现平衡编队控制性能和资源损耗，即以尽可能小的资源损耗达到预期的控制性能，预期的控制性能为在多机器人系统中各机器人之间相对位置固定且跟随机器人与领航机器人的速度趋于一致。本实施例中设计的代价函数如下所示：

通过对上述代价函数在时间上进行积分，求取该积分时间段内的代价函数积累，即值函数。利用泰勒公式对值函数进行展开，即求取汉密尔顿-雅可比-贝尔曼方程。将值函数分解成2部分，前者为编队误差的平方项，后者为连续函数。具体的分解形式如下所示：

V_i ^*(e)＝α_i||e_i||²+V_i ⁰(e_i)；

式中，V_i ⁰(e_i)＝-α_i||e_i||²+V^*(e)为连续函数。

最优控制方法中由于汉密尔顿-雅可比-贝尔曼方程的解析解难以求解，故对上述分解公式中的连续函数部分利用模糊逻辑系统进行近似。但是近似中存在最优参数向量未知的情况，故引入演员-评论家强化学习算法，结合模糊逻辑系统形成演员模糊逻辑系统模块和评论家模糊逻辑系统模块，演员模糊逻辑系统模块执行控制行为，评论家模糊逻辑系统模块对其选择的行为进行评价并将评价信息反馈给前者。具体的评论家模糊逻辑系统模块和演员模糊逻辑系统模块的形式如下：

设计贝尔曼余差项，通过梯度下降法最小化贝尔曼余差项设计评论家模糊逻辑系统模块和演员模糊逻辑系统模块更新律，在线更新二者的参数向量。评论家模糊逻辑系统模块和演员模糊逻辑系统模块的更新律具体形式如下所示：

本实施例提供的具体测试案例当中，给定领航机器人期望轨迹和速度，跟随机器人跟随领航机器人运动且速度最终与领航机器人趋于一致。本实施例中领航者机器人的期望轨迹和速度具体形式如下所示：

根据图2可知，4个跟随机器人跟随领航机器人的运动轨迹以特定的编队形式运动，本实例中的编队形式为

跟随机器人的初始坐标为p₁(0)＝[6,5]^T，p₂(0)＝[-5,6]^T，p₃(0)＝[5,-6]^T，p₄(0)＝[-6,-5]^T。根据图3可知，4个跟随机器人与领航机器人的速度最终趋于一致，跟随机器人的初始速度分别为v₁(0)＝[4,3]^T，v₂(0)＝[-3,4]^T，v₃(0)＝[3,-4]^T，v₄(0)＝[-4,-3]^T。

本发明提供的基于演员-评论家强化学习算法和模糊逻辑系统的二阶线性系统最优编队控制算法，包括处理器、存储器以及存储于存储器上并能够被处理器运行的计算机程序，当处理器运行该计算机程序时，能够实现如上文的方法步骤。

本实施例还提供了一种计算机可读存储介质，其上存储有计算机程序指令，当处理器运行该计算机程序指令时，能够实现如上文的方法步骤。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本专利不局限于上述最佳实施方式，任何人在本专利的启示下都可以得出其它各种形式的基于演员-评论家强化学习和模糊逻辑的多智能体编队控制方法，凡依本发明申请专利范围所做的均等变化与修饰，皆应属本专利的涵盖范围。

Claims

1.一种基于演员-评论家强化学习和模糊逻辑的多智能体编队控制方法，其特征在于，包括以下步骤：

步骤S5：引入演员-评论家强化学习算法，结合模糊逻辑系统，形成演员模糊逻辑系统模块和评论家模糊逻辑系统模块；所述演员模糊逻辑系统模块基于最优控制器，用于执行多机器人系统的控制行为；所述评论家模糊逻辑系统模块基于最优值函数，用于对演员模糊逻辑系统模块采取的行为做出评价，评估控制性能并反馈给演员模糊逻辑系统模块；

所述多机器人系统的具体形式为：