CN111897224B - 基于演员-评论家强化学习和模糊逻辑的多智能体编队控制方法 - Google Patents

基于演员-评论家强化学习和模糊逻辑的多智能体编队控制方法 Download PDF

Info

Publication number
CN111897224B
CN111897224B CN202010811359.2A CN202010811359A CN111897224B CN 111897224 B CN111897224 B CN 111897224B CN 202010811359 A CN202010811359 A CN 202010811359A CN 111897224 B CN111897224 B CN 111897224B
Authority
CN
China
Prior art keywords
fuzzy logic
logic system
actor
robot
critic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010811359.2A
Other languages
English (en)
Other versions
CN111897224A (zh
Inventor
黄捷
张子鹏
王武
蔡逢煌
陈宇韬
柴琴琴
林琼斌
张祯毅
李卓敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuzhou University
Original Assignee
Fuzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuzhou University filed Critical Fuzhou University
Priority to CN202010811359.2A priority Critical patent/CN111897224B/zh
Publication of CN111897224A publication Critical patent/CN111897224A/zh
Application granted granted Critical
Publication of CN111897224B publication Critical patent/CN111897224B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明提出一种基于演员‑评论家强化学习和模糊逻辑的多智能体编队控制方法,将最优控制方法引入多机器人系统领航跟随者编队控制方法中,利用模糊逻辑系统逼近连续函数的能力,解决最优控制中汉密尔顿‑雅可比‑贝尔曼方程难以求取解析解的问题;同时,结合演员‑评论家强化学习算法,形成演员模糊逻辑系统模块和评论家模糊逻辑系统模块,前者执行控制行为,后者对前者所选择的行为进行评价并将评价信息反馈给前者。该方法可以平衡控制性能和资源损耗,并且以在线学习的方式提高多机器人系统对于环境的适应性。

Description

基于演员-评论家强化学习和模糊逻辑的多智能体编队控制 方法
技术领域
本发明属于器人编队控制领域,尤其涉及一种基于演员-评论家强化学习和模糊逻辑的多智能体二阶线性系统最优编队控制方法。
背景技术
在过去的十几年中,多机器人系统由于其具有较大的冗余,相较于单机器人系统具有更好的容错性和鲁棒性,且能够通过合作完成许多单机器人无法完成的任务。在多机器人系统中,机器人编队是机器人协同执行任务的控制方法之一。领航跟随者法作为编队控制技术之一,能够实现多机器人系统的分布式控制,具有灵活性高、易于使用等特点。将最优控制方法引入多机器人系统编队控制中,能够通过最小化代价函数从而实现平衡控制性能和资源损耗的控制目标。传统的最优控制一般是通过求解汉密尔顿-雅可比-贝尔曼函数实现控制,但是由于函数中的非线性因素,要求取汉密尔顿-雅可比-贝尔曼函数的解析解十分困难。
因此,为了解决这一将最优控制方法引入编队控制中的难题,可以考虑引入强化学习和模糊逻辑系统。当前现有技术提出的基于强化学习的最优编队控制问题的解决方案主要聚焦于一阶系统,对于应用范围广泛的二阶系统缺乏研究,无法提供合适的解决方案。
发明内容
为了克服现有技术存在的缺陷和不足,本发明的目的是提出一种基于演员-评论家强化学习算法和模糊逻辑系统的二阶线性系统最优编队控制算法,将强化学习与领航跟随者编队控制方法相结合,应用在二阶的线性模型中,该方法能够解决最优控制中汉密尔顿-雅可比-贝尔曼方程难以求取解析解的问题。其主要以二阶线性系统为研究对象,首先将最优控制方法引入多机器人系统领航跟随者编队控制方法中,利用模糊逻辑系统逼近连续函数的能力,解决最优控制中汉密尔顿-雅可比-贝尔曼方程难以求取解析解的问题;其次,结合演员-评论家强化学习算法,形成演员模糊逻辑系统模块和评论家模糊逻辑系统模块,前者执行控制行为,后者对前者所选择的行为进行评价并将评价信息反馈给前者;最后通过梯度下降法最小化贝尔曼余差,设计评论家模糊逻辑系统模块和演员模糊逻辑系统模块的参数向量更新律。该方法可以平衡控制性能和资源损耗,并且以在线学习的方式提高多机器人系统对于环境的适应性。
本发明具体采用以下技术方案:
一种基于演员-评论家强化学习和模糊逻辑的多智能体编队控制方法,其特征在于,包括以下步骤:
步骤S1:利用图论,建立多机器人系统中机器人之间的通讯拓扑结构,机器人只获取其邻接机器人的位置和速度信息;
步骤S2:利用邻接机器人的位置信息,建立位置误差;利用邻接机器人的速度信息,建立速度误差;并利用位置误差和速度误差建立编队误差;
步骤S3:引入最优控制策略,用于通过计算所得的编队误差求取代价函数和值函数;
步骤S4:利用泰勒公式对值函数进行展开,并求取汉密尔顿-雅可比-贝尔曼方程,获得最优控制器和最优值函数的表达形式;将最优值函数分解为编队误差项平方项和连续函数项,利用模糊逻辑系统对最优控制器和连续函数项进行近似;
步骤S5:引入演员-评论家强化学习算法,结合模糊逻辑系统,形成演员模糊逻辑系统模块和评论家模糊逻辑系统模块;所述演员模糊逻辑系统模块基于最优控制器,用于执行多机器人系统的控制行为;所述评论家模糊逻辑系统模块基于最优值函数,用于对演员模糊逻辑系统模块采取的行为做出评价,评估控制性能并反馈给演员模糊逻辑系统模块。
优选地,所述演员模糊逻辑系统模块和评论家模糊逻辑系统模块的参数向量通过基于贝尔曼余差的梯度下降法实时更新。
优选地,所述多机器人系统的具体形式为:
Figure BDA0002631185410000021
式中,pi(t)为第i个机器人的位置信息,vi(t)为第i个机器人的速度信息,ui(e)为第i个机器人的控制器,e为编队误差量,
Figure BDA00026311854100000311
Figure BDA00026311854100000312
分别是位置信息和速度信息相对于时间的导数;
在步骤S2中,所述位置误差设置如下:
Figure BDA0002631185410000031
式中,
Figure BDA0002631185410000032
为位置误差,Λi为机器人i的邻居集,aij为邻接矩阵的第i行第j列的元素,bi为机器人i于领航者的连接权重,
Figure BDA0002631185410000033
为机器人i与领航者的相对位置向量表述为编队形式,fl为领航者的轨迹,即期望轨迹,pi和pj分别为第i个和第j个机器人的位置信息;
所述速度误差设置如下:
Figure BDA0002631185410000034
式中,
Figure BDA0002631185410000035
为速度误差,yl为领航者的速度即期望速度,期望轨迹和期望速度满足
Figure BDA0002631185410000036
所述编队误差设置如下:
Figure BDA0002631185410000037
优选地,在步骤S3中,
所述代价函数为:
Figure BDA0002631185410000038
其中,C=diag{c1,...,cn}且
Figure BDA0002631185410000039
Figure BDA00026311854100000310
表示克罗内克积,Im为m阶单位矩阵;
所述值函数为:
Figure BDA0002631185410000041
所述最优控制策略为:设具有最优控制器u*能够使得值函数最小,即最优值函数:
Figure BDA0002631185410000042
此时,构建的最优控制器和最优值函数都为未知量,仅做分析使用。
优选地,在步骤S4中,对值函数进行泰勒展开,可以求得汉密尔顿-雅可比-贝尔曼方程:
Figure BDA0002631185410000043
将最优值函数代入汉密尔顿-雅可比-贝尔曼方程中,将使得方程等于0,即:
Figure BDA0002631185410000044
假设上述方程存在唯一解,则根据公式
Figure BDA0002631185410000045
可以求得最优控制器的表述形式:
Figure BDA0002631185410000046
所述最优值函数分解为编队误差项平方项和连续函数项后的形式为:
Vi *(e)=αi||ei||2+Vi 0(ei);
式中,Vi 0(ei)=-αi||ei||2+V*(e)为连续函数,αi为大于3的常数;
由于Vi 0(ei)为连续函数,故使用模糊逻辑系统对其进行逼近,具体形式如下:
Figure BDA0002631185410000051
经过模糊逻辑系统处理后,最优值函数及最优控制器转化为:
Figure BDA0002631185410000052
Figure BDA0002631185410000053
式中,
Figure BDA0002631185410000054
Figure BDA0002631185410000055
分别为模糊基函数和近似误差对
Figure BDA0002631185410000056
的偏导数;
Figure BDA0002631185410000057
为编队误差近似值,
Figure BDA0002631185410000058
Figure BDA0002631185410000059
分别为机器人i位置和速度的近似值,
Figure BDA00026311854100000510
为最优参数矩阵,
Figure BDA00026311854100000511
为模糊基函数向量,
Figure BDA00026311854100000512
为近似误差且满足
Figure BDA00026311854100000513
其中κi为一个正的常数。
鉴于最优参数矩阵
Figure BDA00026311854100000514
为未知的,只能供理论分析使用,故上述最优控制器不能直接使用,因此需要引入演员-评论家强化学习算法,形成演员模糊逻辑系统模块和评论家模糊逻辑系统模块。
优选地,所述演员模糊逻辑系统模块的表达式为:
Figure BDA00026311854100000515
式中,
Figure BDA00026311854100000516
为演员参数向量;
所述评论家模糊逻辑系统模块的表达式为:
Figure BDA00026311854100000517
式中,
Figure BDA00026311854100000518
为最优值函数的近似值,
Figure BDA00026311854100000519
为评论家参数向量。
优选地,所述演员模糊逻辑系统模块和评论家模糊逻辑系统模块的参数向量通过基于贝尔曼余差的梯度下降法作为规则进行实时更新:
设置贝尔曼余差为:
Figure BDA0002631185410000061
由于所述最优控制器代入汉密尔顿-雅可比-贝尔曼方程中有
Figure BDA0002631185410000062
成立,故贝尔曼余差为:
Figure BDA0002631185410000063
定义函数:
Figure BDA0002631185410000064
通过梯度下降法最小化贝尔曼余差,则可得所述评论家模糊逻辑系统模块的参数向量更新律如下所示:
Figure BDA0002631185410000065
式中,kci为评论家模糊逻辑系统模块的学习速率,为大于0的常数,ηi的具体表示形式如下:
Figure BDA0002631185410000066
所述演员模糊逻辑系统模块的参数向量更新律如下所示:
Figure BDA0002631185410000067
式中,kai为演员模糊逻辑系统模块的学习速率,为大于0的常数。
本发明提供的基于演员-评论家强化学习算法和模糊逻辑系统的二阶线性系统最优编队控制算法,可以作为存储于存储器上并能够被处理器运行的计算机程序,当处理器运行该计算机程序时,能够实现如上文所述的方法步骤。
相较于现有技术,本发明及其优选方案针对二阶线性模型,将最优控制方法引入多机器人系统领航跟随者编队控制方法中,利用模糊逻辑系统逼近连续函数的能力,解决最优控制方法中汉密尔顿-雅可比-贝尔曼方程难以求取解析解的问题,结合演员-评论家强化学习算法,解决最优参数向量未知的难点,利用梯度下降法最小化贝尔曼余差实时更新演员模糊逻辑系统模块和评论家模糊逻辑系统模块的参数向量,提高了算法对于机器人所处环境的适应性。
附图说明
下面结合附图和具体实施方式对本发明进一步详细的说明:
图1是本发明实施例基于区域混淆神经网络方法流程示意图;
图2是本发明实施例步骤S1流程示意图;
图3是本发明实施例分类主干网络结构示意图。
具体实施方式
为让本专利的特征和优点能更明显易懂,下文特举实施例,作详细说明如下:
如图1所示,本实施例提供了一种基于演员-评论家强化学习算法和模糊逻辑系的二阶线性系统最优编队控制算法;如图2和图3所示,本实施例使用4个跟随者1个领航者进行matlab仿真举例说明。
本实施例的具体内容包括以下要点:
通过图建立机器人之间的通信拓扑,机器人之间可获取其邻接机器人的位置和速度信息;
引入最优控制策略,通过计算所得的编队误差求取代价函数和值函数;
将值函数分解为编队误差项平方项和连续函数项,利用模糊逻辑系统对连续函数项进行近似;
引入演员-评论家强化学习算法,结合模糊逻辑系统,形成演员模糊逻辑系统模块和评论家模糊逻辑系统模块,前者执行控制行为,后者对前者所选择的行为进行评价并将评价信息反馈给前者。
在本实施例中,机器人执行的任务为给定领航机器人运动轨迹和速度,跟随机器人根据由图建立的拓扑结构,获取邻接机器人或领航机器人的位置和速度信息,以特定的编队形式跟随领航机器人运动。当多机器人系统编队形式稳定,即各机器人之间相对位置固定且跟随机器人与领航机器人的速度趋于一致时,任务完成。
在本实施例中,机器人获取的信息包括以下几类:邻接机器人的位置信息、邻接机器人的速度信息,若跟随机器人与领航机器人之间具有通讯,则该跟随机器人可获取领航机器人的位置信息和速度信息。通过上述信息计算求取得编队误差量,具体的编队误差量计算如下所示:
Figure BDA0002631185410000081
在领航跟随者编队控制方法中引入最优控制方法,最优控制方法的核心为设计代价函数,通过最小化代价函数求取编队控制器,从而实现平衡编队控制性能和资源损耗,即以尽可能小的资源损耗达到预期的控制性能,预期的控制性能为在多机器人系统中各机器人之间相对位置固定且跟随机器人与领航机器人的速度趋于一致。本实施例中设计的代价函数如下所示:
Figure BDA0002631185410000082
通过对上述代价函数在时间上进行积分,求取该积分时间段内的代价函数积累,即值函数。利用泰勒公式对值函数进行展开,即求取汉密尔顿-雅可比-贝尔曼方程。将值函数分解成2部分,前者为编队误差的平方项,后者为连续函数。具体的分解形式如下所示:
Vi *(e)=αi||ei||2+Vi 0(ei);
式中,Vi 0(ei)=-αi||ei||2+V*(e)为连续函数。
最优控制方法中由于汉密尔顿-雅可比-贝尔曼方程的解析解难以求解,故对上述分解公式中的连续函数部分利用模糊逻辑系统进行近似。但是近似中存在最优参数向量未知的情况,故引入演员-评论家强化学习算法,结合模糊逻辑系统形成演员模糊逻辑系统模块和评论家模糊逻辑系统模块,演员模糊逻辑系统模块执行控制行为,评论家模糊逻辑系统模块对其选择的行为进行评价并将评价信息反馈给前者。具体的评论家模糊逻辑系统模块和演员模糊逻辑系统模块的形式如下:
Figure BDA0002631185410000083
Figure BDA0002631185410000091
设计贝尔曼余差项,通过梯度下降法最小化贝尔曼余差项设计评论家模糊逻辑系统模块和演员模糊逻辑系统模块更新律,在线更新二者的参数向量。评论家模糊逻辑系统模块和演员模糊逻辑系统模块的更新律具体形式如下所示:
Figure BDA0002631185410000092
Figure BDA0002631185410000093
本实施例提供的具体测试案例当中,给定领航机器人期望轨迹和速度,跟随机器人跟随领航机器人运动且速度最终与领航机器人趋于一致。本实施例中领航者机器人的期望轨迹和速度具体形式如下所示:
Figure BDA0002631185410000094
根据图2可知,4个跟随机器人跟随领航机器人的运动轨迹以特定的编队形式运动,本实例中的编队形式为
Figure BDA0002631185410000095
Figure BDA0002631185410000096
跟随机器人的初始坐标为p1(0)=[6,5]T,p2(0)=[-5,6]T,p3(0)=[5,-6]T,p4(0)=[-6,-5]T。根据图3可知,4个跟随机器人与领航机器人的速度最终趋于一致,跟随机器人的初始速度分别为v1(0)=[4,3]T,v2(0)=[-3,4]T,v3(0)=[3,-4]T,v4(0)=[-4,-3]T
本发明提供的基于演员-评论家强化学习算法和模糊逻辑系统的二阶线性系统最优编队控制算法,包括处理器、存储器以及存储于存储器上并能够被处理器运行的计算机程序,当处理器运行该计算机程序时,能够实现如上文的方法步骤。
本实施例还提供了一种计算机可读存储介质,其上存储有计算机程序指令,当处理器运行该计算机程序指令时,能够实现如上文的方法步骤。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本专利不局限于上述最佳实施方式,任何人在本专利的启示下都可以得出其它各种形式的基于演员-评论家强化学习和模糊逻辑的多智能体编队控制方法,凡依本发明申请专利范围所做的均等变化与修饰,皆应属本专利的涵盖范围。

Claims (1)

1.一种基于演员-评论家强化学习和模糊逻辑的多智能体编队控制方法,其特征在于,包括以下步骤:
步骤S1:利用图论,建立多机器人系统中机器人之间的通讯拓扑结构,机器人只获取其邻接机器人的位置和速度信息;
步骤S2:利用邻接机器人的位置信息,建立位置误差;利用邻接机器人的速度信息,建立速度误差;并利用位置误差和速度误差建立编队误差;
步骤S3:引入最优控制策略,用于通过计算所得的编队误差求取代价函数和值函数;
步骤S4:利用泰勒公式对值函数进行展开,并求取汉密尔顿-雅可比-贝尔曼方程,获得最优控制器和最优值函数的表达形式;将最优值函数分解为编队误差项平方项和连续函数项,利用模糊逻辑系统对最优控制器和连续函数项进行近似;
步骤S5:引入演员-评论家强化学习算法,结合模糊逻辑系统,形成演员模糊逻辑系统模块和评论家模糊逻辑系统模块;所述演员模糊逻辑系统模块基于最优控制器,用于执行多机器人系统的控制行为;所述评论家模糊逻辑系统模块基于最优值函数,用于对演员模糊逻辑系统模块采取的行为做出评价,评估控制性能并反馈给演员模糊逻辑系统模块;
所述多机器人系统的具体形式为:
Figure FDA0003479172960000011
式中,pi(t)为第i个机器人的位置信息,vi(t)为第i个机器人的速度信息,ui(e)为第i个机器人的控制器,e为编队误差量,
Figure FDA0003479172960000012
Figure FDA0003479172960000013
分别是位置信息和速度信息相对于时间的导数;
在步骤S2中,所述位置误差设置如下:
Figure FDA0003479172960000021
式中,
Figure FDA0003479172960000022
为位置误差,Λi为机器人i的邻居集,aij为邻接矩阵的第i行第j列的元素,bi为机器人i与领航者的连接权重,
Figure FDA0003479172960000023
为机器人i与领航者的相对位置向量,表述为编队形式,fl为领航者的轨迹,即期望轨迹,pi和pj分别为第i个和第j个机器人的位置信息;
所述速度误差设置如下:
Figure FDA0003479172960000024
式中,
Figure FDA0003479172960000025
为速度误差,yl为领航者的速度即期望速度,期望轨迹和期望速度满足
Figure FDA0003479172960000026
所述编队误差设置如下:
Figure FDA0003479172960000027
在步骤S3中,
所述代价函数为:
Figure FDA0003479172960000028
其中,C=diag{c1,...,cn}且
Figure FDA0003479172960000029
表示克罗内克积,Im为m阶单位矩阵;
所述值函数为:
Figure FDA00034791729600000210
所述最优控制策略为:设具有最优控制器u*能够使得值函数最小,即最优值函数:
Figure FDA0003479172960000031
在步骤S4中,所述最优控制器为:
Figure FDA0003479172960000032
所述最优值函数分解为编队误差项平方项和连续函数项后的形式为:
Figure FDA0003479172960000033
式中,
Figure FDA0003479172960000034
为连续函数,αi为大于3的常数;
经过模糊逻辑系统处理后,最优值函数及最优控制器转化为:
Figure FDA0003479172960000035
Figure FDA0003479172960000036
式中,
Figure FDA0003479172960000037
Figure FDA0003479172960000038
分别为模糊基函数和近似误差对
Figure FDA0003479172960000039
的偏导数;
Figure FDA00034791729600000310
为编队误差近似值,
Figure FDA00034791729600000311
Figure FDA00034791729600000312
分别为机器人i位置和速度的近似值,
Figure FDA00034791729600000313
为最优参数矩阵,
Figure FDA00034791729600000314
为模糊基函数向量,
Figure FDA00034791729600000315
为近似误差且满足
Figure FDA00034791729600000316
其中κi为一个正的常数;
所述演员模糊逻辑系统模块的表达式为:
Figure FDA00034791729600000317
式中,
Figure FDA00034791729600000318
为演员参数向量;
所述评论家模糊逻辑系统模块的表达式为:
Figure FDA00034791729600000319
式中,
Figure FDA0003479172960000041
为最优值函数的近似值,
Figure FDA0003479172960000042
为评论家参数向量;
所述演员模糊逻辑系统模块和评论家模糊逻辑系统模块的参数向量通过基于贝尔曼余差的梯度下降法实时更新:
设置贝尔曼余差为:
Figure FDA0003479172960000043
由于所述最优控制器代入汉密尔顿-雅可比-贝尔曼方程中有
Figure FDA0003479172960000044
成立,故贝尔曼余差为:
Figure FDA0003479172960000045
定义函数:
Figure FDA0003479172960000046
通过梯度下降法最小化贝尔曼余差,则可得所述评论家模糊逻辑系统模块的参数向量更新律如下所示:
Figure FDA0003479172960000047
式中,kci为评论家模糊逻辑系统模块的学习速率,为大于0的常数,ηi的具体表示形式如下:
Figure FDA0003479172960000048
所述演员模糊逻辑系统模块的参数向量更新律如下所示:
Figure FDA0003479172960000049
式中,kai为演员模糊逻辑系统模块的学习速率,为大于0的常数。
CN202010811359.2A 2020-08-13 2020-08-13 基于演员-评论家强化学习和模糊逻辑的多智能体编队控制方法 Active CN111897224B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010811359.2A CN111897224B (zh) 2020-08-13 2020-08-13 基于演员-评论家强化学习和模糊逻辑的多智能体编队控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010811359.2A CN111897224B (zh) 2020-08-13 2020-08-13 基于演员-评论家强化学习和模糊逻辑的多智能体编队控制方法

Publications (2)

Publication Number Publication Date
CN111897224A CN111897224A (zh) 2020-11-06
CN111897224B true CN111897224B (zh) 2022-04-01

Family

ID=73230294

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010811359.2A Active CN111897224B (zh) 2020-08-13 2020-08-13 基于演员-评论家强化学习和模糊逻辑的多智能体编队控制方法

Country Status (1)

Country Link
CN (1) CN111897224B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112711261B (zh) * 2020-12-30 2021-12-28 浙江大学 一种基于局部视野的多智能体编队规划方法
CN113359476B (zh) * 2021-07-09 2022-09-16 广东华中科技大学工业技术研究院 离散时间下多智能体系统的一致性控制算法设计方法
CN113534668B (zh) * 2021-08-13 2022-06-10 哈尔滨工程大学 基于最大熵的演员-评论家框架的auv运动规划方法
CN116339154A (zh) * 2023-05-30 2023-06-27 湖南工商大学 空间机器人捕获卫星操作的智能容错控制方法及设备
CN117709027B (zh) * 2024-02-05 2024-05-28 山东大学 机电液耦合直线驱动系统动力学模型参数辨识方法及系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107943071B (zh) * 2017-11-03 2020-02-07 中国科学院自动化研究所 无人车的编队保持控制方法及系统
CN109947131A (zh) * 2019-04-08 2019-06-28 燕山大学 一种基于强化学习的多水下机器人编队控制方法
CN110470306B (zh) * 2019-08-27 2023-03-10 中山大学 一种可保证连通性约束的基于深度强化学习的多机器人编队导航方法
CN110502033B (zh) * 2019-09-04 2022-08-09 中国人民解放军国防科技大学 一种基于强化学习的固定翼无人机群集控制方法

Also Published As

Publication number Publication date
CN111897224A (zh) 2020-11-06

Similar Documents

Publication Publication Date Title
CN111897224B (zh) 基于演员-评论家强化学习和模糊逻辑的多智能体编队控制方法
CN109465825B (zh) 机械臂柔性关节的rbf神经网络自适应动态面控制方法
Alanis et al. Artificial neural networks for engineering applications
Lin et al. Event-based finite-time neural control for human-in-the-loop UAV attitude systems
Kuo et al. Intelligent leader-following consensus formation control using recurrent neural networks for small-size unmanned helicopters
CN111941432B (zh) 一种高性能机械臂人工智能输出反馈控制方法
CN112904728B (zh) 一种基于改进型趋近律的机械臂滑模控制轨迹跟踪方法
Mueller et al. Iterative learning of feed-forward corrections for high-performance tracking
Qi et al. Stable indirect adaptive control based on discrete-time T–S fuzzy model
CN111781827B (zh) 基于神经网络和滑模控制的卫星编队控制方法
Šuster et al. Tracking trajectory of the mobile robot Khepera II using approaches of artificial intelligence
Eqtami et al. A self-triggered model predictive control framework for the cooperation of distributed nonholonomic agents
Rego et al. Lyapunov-based continuous-time nonlinear control using deep neural network applied to underactuated systems
CN111872937A (zh) 一种任务空间中不确定机械臂的控制方法
Van Tran et al. Artificial chemical reaction optimization algorithm and neural network based adaptive control for robot manipulator
CN113759722B (zh) 一种无人机自抗扰控制器参数优化方法
Kim et al. TOAST: Trajectory Optimization and Simultaneous Tracking Using Shared Neural Network Dynamics
CN117226849B (zh) 多机械臂自适应滑模控制方法及系统
CN112643673A (zh) 基于非线干扰观测器的移动机械臂鲁棒控制方法及系统
CN116449703A (zh) 一种有限时间框架下的auh编队协同控制方法
CN113485323B (zh) 一种级联多移动机器人灵活编队方法
Cui et al. Adaptive consensus tracking control for multiple autonomous underwater vehicles with uncertain parameters
CN114359349B (zh) 一种用于车辆自适应路径跟踪的终身学习方法及系统
CN113359822B (zh) 具有领航者无人机编队的自抗扰控制方法及系统
CN110162084A (zh) 基于一致性理论的飞航导弹集群系统编队控制方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant