CN111897224B - 基于演员-评论家强化学习和模糊逻辑的多智能体编队控制方法 - Google Patents
基于演员-评论家强化学习和模糊逻辑的多智能体编队控制方法 Download PDFInfo
- Publication number
- CN111897224B CN111897224B CN202010811359.2A CN202010811359A CN111897224B CN 111897224 B CN111897224 B CN 111897224B CN 202010811359 A CN202010811359 A CN 202010811359A CN 111897224 B CN111897224 B CN 111897224B
- Authority
- CN
- China
- Prior art keywords
- fuzzy logic
- logic system
- actor
- robot
- critic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/04—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
- G05B13/042—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Feedback Control In General (AREA)
Abstract
本发明提出一种基于演员‑评论家强化学习和模糊逻辑的多智能体编队控制方法,将最优控制方法引入多机器人系统领航跟随者编队控制方法中,利用模糊逻辑系统逼近连续函数的能力,解决最优控制中汉密尔顿‑雅可比‑贝尔曼方程难以求取解析解的问题;同时,结合演员‑评论家强化学习算法,形成演员模糊逻辑系统模块和评论家模糊逻辑系统模块,前者执行控制行为,后者对前者所选择的行为进行评价并将评价信息反馈给前者。该方法可以平衡控制性能和资源损耗,并且以在线学习的方式提高多机器人系统对于环境的适应性。
Description
技术领域
本发明属于器人编队控制领域,尤其涉及一种基于演员-评论家强化学习和模糊逻辑的多智能体二阶线性系统最优编队控制方法。
背景技术
在过去的十几年中,多机器人系统由于其具有较大的冗余,相较于单机器人系统具有更好的容错性和鲁棒性,且能够通过合作完成许多单机器人无法完成的任务。在多机器人系统中,机器人编队是机器人协同执行任务的控制方法之一。领航跟随者法作为编队控制技术之一,能够实现多机器人系统的分布式控制,具有灵活性高、易于使用等特点。将最优控制方法引入多机器人系统编队控制中,能够通过最小化代价函数从而实现平衡控制性能和资源损耗的控制目标。传统的最优控制一般是通过求解汉密尔顿-雅可比-贝尔曼函数实现控制,但是由于函数中的非线性因素,要求取汉密尔顿-雅可比-贝尔曼函数的解析解十分困难。
因此,为了解决这一将最优控制方法引入编队控制中的难题,可以考虑引入强化学习和模糊逻辑系统。当前现有技术提出的基于强化学习的最优编队控制问题的解决方案主要聚焦于一阶系统,对于应用范围广泛的二阶系统缺乏研究,无法提供合适的解决方案。
发明内容
为了克服现有技术存在的缺陷和不足,本发明的目的是提出一种基于演员-评论家强化学习算法和模糊逻辑系统的二阶线性系统最优编队控制算法,将强化学习与领航跟随者编队控制方法相结合,应用在二阶的线性模型中,该方法能够解决最优控制中汉密尔顿-雅可比-贝尔曼方程难以求取解析解的问题。其主要以二阶线性系统为研究对象,首先将最优控制方法引入多机器人系统领航跟随者编队控制方法中,利用模糊逻辑系统逼近连续函数的能力,解决最优控制中汉密尔顿-雅可比-贝尔曼方程难以求取解析解的问题;其次,结合演员-评论家强化学习算法,形成演员模糊逻辑系统模块和评论家模糊逻辑系统模块,前者执行控制行为,后者对前者所选择的行为进行评价并将评价信息反馈给前者;最后通过梯度下降法最小化贝尔曼余差,设计评论家模糊逻辑系统模块和演员模糊逻辑系统模块的参数向量更新律。该方法可以平衡控制性能和资源损耗,并且以在线学习的方式提高多机器人系统对于环境的适应性。
本发明具体采用以下技术方案:
一种基于演员-评论家强化学习和模糊逻辑的多智能体编队控制方法,其特征在于,包括以下步骤:
步骤S1:利用图论,建立多机器人系统中机器人之间的通讯拓扑结构,机器人只获取其邻接机器人的位置和速度信息;
步骤S2:利用邻接机器人的位置信息,建立位置误差;利用邻接机器人的速度信息,建立速度误差;并利用位置误差和速度误差建立编队误差;
步骤S3:引入最优控制策略,用于通过计算所得的编队误差求取代价函数和值函数;
步骤S4:利用泰勒公式对值函数进行展开,并求取汉密尔顿-雅可比-贝尔曼方程,获得最优控制器和最优值函数的表达形式;将最优值函数分解为编队误差项平方项和连续函数项,利用模糊逻辑系统对最优控制器和连续函数项进行近似;
步骤S5:引入演员-评论家强化学习算法,结合模糊逻辑系统,形成演员模糊逻辑系统模块和评论家模糊逻辑系统模块;所述演员模糊逻辑系统模块基于最优控制器,用于执行多机器人系统的控制行为;所述评论家模糊逻辑系统模块基于最优值函数,用于对演员模糊逻辑系统模块采取的行为做出评价,评估控制性能并反馈给演员模糊逻辑系统模块。
优选地,所述演员模糊逻辑系统模块和评论家模糊逻辑系统模块的参数向量通过基于贝尔曼余差的梯度下降法实时更新。
优选地,所述多机器人系统的具体形式为:
在步骤S2中,所述位置误差设置如下:
式中,为位置误差,Λi为机器人i的邻居集,aij为邻接矩阵的第i行第j列的元素,bi为机器人i于领航者的连接权重,为机器人i与领航者的相对位置向量表述为编队形式,fl为领航者的轨迹,即期望轨迹,pi和pj分别为第i个和第j个机器人的位置信息;
所述速度误差设置如下:
所述编队误差设置如下:
优选地,在步骤S3中,
所述最优控制策略为:设具有最优控制器u*能够使得值函数最小,即最优值函数:
此时,构建的最优控制器和最优值函数都为未知量,仅做分析使用。
优选地,在步骤S4中,对值函数进行泰勒展开,可以求得汉密尔顿-雅可比-贝尔曼方程:
将最优值函数代入汉密尔顿-雅可比-贝尔曼方程中,将使得方程等于0,即:
所述最优值函数分解为编队误差项平方项和连续函数项后的形式为:
Vi *(e)=αi||ei||2+Vi 0(ei);
式中,Vi 0(ei)=-αi||ei||2+V*(e)为连续函数,αi为大于3的常数;
由于Vi 0(ei)为连续函数,故使用模糊逻辑系统对其进行逼近,具体形式如下:
经过模糊逻辑系统处理后,最优值函数及最优控制器转化为:
优选地,所述演员模糊逻辑系统模块的表达式为:
所述评论家模糊逻辑系统模块的表达式为:
优选地,所述演员模糊逻辑系统模块和评论家模糊逻辑系统模块的参数向量通过基于贝尔曼余差的梯度下降法作为规则进行实时更新:
设置贝尔曼余差为:
式中,kci为评论家模糊逻辑系统模块的学习速率,为大于0的常数,ηi的具体表示形式如下:
所述演员模糊逻辑系统模块的参数向量更新律如下所示:
式中,kai为演员模糊逻辑系统模块的学习速率,为大于0的常数。
本发明提供的基于演员-评论家强化学习算法和模糊逻辑系统的二阶线性系统最优编队控制算法,可以作为存储于存储器上并能够被处理器运行的计算机程序,当处理器运行该计算机程序时,能够实现如上文所述的方法步骤。
相较于现有技术,本发明及其优选方案针对二阶线性模型,将最优控制方法引入多机器人系统领航跟随者编队控制方法中,利用模糊逻辑系统逼近连续函数的能力,解决最优控制方法中汉密尔顿-雅可比-贝尔曼方程难以求取解析解的问题,结合演员-评论家强化学习算法,解决最优参数向量未知的难点,利用梯度下降法最小化贝尔曼余差实时更新演员模糊逻辑系统模块和评论家模糊逻辑系统模块的参数向量,提高了算法对于机器人所处环境的适应性。
附图说明
下面结合附图和具体实施方式对本发明进一步详细的说明:
图1是本发明实施例基于区域混淆神经网络方法流程示意图;
图2是本发明实施例步骤S1流程示意图;
图3是本发明实施例分类主干网络结构示意图。
具体实施方式
为让本专利的特征和优点能更明显易懂,下文特举实施例,作详细说明如下:
如图1所示,本实施例提供了一种基于演员-评论家强化学习算法和模糊逻辑系的二阶线性系统最优编队控制算法;如图2和图3所示,本实施例使用4个跟随者1个领航者进行matlab仿真举例说明。
本实施例的具体内容包括以下要点:
通过图建立机器人之间的通信拓扑,机器人之间可获取其邻接机器人的位置和速度信息;
引入最优控制策略,通过计算所得的编队误差求取代价函数和值函数;
将值函数分解为编队误差项平方项和连续函数项,利用模糊逻辑系统对连续函数项进行近似;
引入演员-评论家强化学习算法,结合模糊逻辑系统,形成演员模糊逻辑系统模块和评论家模糊逻辑系统模块,前者执行控制行为,后者对前者所选择的行为进行评价并将评价信息反馈给前者。
在本实施例中,机器人执行的任务为给定领航机器人运动轨迹和速度,跟随机器人根据由图建立的拓扑结构,获取邻接机器人或领航机器人的位置和速度信息,以特定的编队形式跟随领航机器人运动。当多机器人系统编队形式稳定,即各机器人之间相对位置固定且跟随机器人与领航机器人的速度趋于一致时,任务完成。
在本实施例中,机器人获取的信息包括以下几类:邻接机器人的位置信息、邻接机器人的速度信息,若跟随机器人与领航机器人之间具有通讯,则该跟随机器人可获取领航机器人的位置信息和速度信息。通过上述信息计算求取得编队误差量,具体的编队误差量计算如下所示:
在领航跟随者编队控制方法中引入最优控制方法,最优控制方法的核心为设计代价函数,通过最小化代价函数求取编队控制器,从而实现平衡编队控制性能和资源损耗,即以尽可能小的资源损耗达到预期的控制性能,预期的控制性能为在多机器人系统中各机器人之间相对位置固定且跟随机器人与领航机器人的速度趋于一致。本实施例中设计的代价函数如下所示:
通过对上述代价函数在时间上进行积分,求取该积分时间段内的代价函数积累,即值函数。利用泰勒公式对值函数进行展开,即求取汉密尔顿-雅可比-贝尔曼方程。将值函数分解成2部分,前者为编队误差的平方项,后者为连续函数。具体的分解形式如下所示:
Vi *(e)=αi||ei||2+Vi 0(ei);
式中,Vi 0(ei)=-αi||ei||2+V*(e)为连续函数。
最优控制方法中由于汉密尔顿-雅可比-贝尔曼方程的解析解难以求解,故对上述分解公式中的连续函数部分利用模糊逻辑系统进行近似。但是近似中存在最优参数向量未知的情况,故引入演员-评论家强化学习算法,结合模糊逻辑系统形成演员模糊逻辑系统模块和评论家模糊逻辑系统模块,演员模糊逻辑系统模块执行控制行为,评论家模糊逻辑系统模块对其选择的行为进行评价并将评价信息反馈给前者。具体的评论家模糊逻辑系统模块和演员模糊逻辑系统模块的形式如下:
设计贝尔曼余差项,通过梯度下降法最小化贝尔曼余差项设计评论家模糊逻辑系统模块和演员模糊逻辑系统模块更新律,在线更新二者的参数向量。评论家模糊逻辑系统模块和演员模糊逻辑系统模块的更新律具体形式如下所示:
本实施例提供的具体测试案例当中,给定领航机器人期望轨迹和速度,跟随机器人跟随领航机器人运动且速度最终与领航机器人趋于一致。本实施例中领航者机器人的期望轨迹和速度具体形式如下所示:
根据图2可知,4个跟随机器人跟随领航机器人的运动轨迹以特定的编队形式运动,本实例中的编队形式为 跟随机器人的初始坐标为p1(0)=[6,5]T,p2(0)=[-5,6]T,p3(0)=[5,-6]T,p4(0)=[-6,-5]T。根据图3可知,4个跟随机器人与领航机器人的速度最终趋于一致,跟随机器人的初始速度分别为v1(0)=[4,3]T,v2(0)=[-3,4]T,v3(0)=[3,-4]T,v4(0)=[-4,-3]T。
本发明提供的基于演员-评论家强化学习算法和模糊逻辑系统的二阶线性系统最优编队控制算法,包括处理器、存储器以及存储于存储器上并能够被处理器运行的计算机程序,当处理器运行该计算机程序时,能够实现如上文的方法步骤。
本实施例还提供了一种计算机可读存储介质,其上存储有计算机程序指令,当处理器运行该计算机程序指令时,能够实现如上文的方法步骤。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本专利不局限于上述最佳实施方式,任何人在本专利的启示下都可以得出其它各种形式的基于演员-评论家强化学习和模糊逻辑的多智能体编队控制方法,凡依本发明申请专利范围所做的均等变化与修饰,皆应属本专利的涵盖范围。
Claims (1)
1.一种基于演员-评论家强化学习和模糊逻辑的多智能体编队控制方法,其特征在于,包括以下步骤:
步骤S1:利用图论,建立多机器人系统中机器人之间的通讯拓扑结构,机器人只获取其邻接机器人的位置和速度信息;
步骤S2:利用邻接机器人的位置信息,建立位置误差;利用邻接机器人的速度信息,建立速度误差;并利用位置误差和速度误差建立编队误差;
步骤S3:引入最优控制策略,用于通过计算所得的编队误差求取代价函数和值函数;
步骤S4:利用泰勒公式对值函数进行展开,并求取汉密尔顿-雅可比-贝尔曼方程,获得最优控制器和最优值函数的表达形式;将最优值函数分解为编队误差项平方项和连续函数项,利用模糊逻辑系统对最优控制器和连续函数项进行近似;
步骤S5:引入演员-评论家强化学习算法,结合模糊逻辑系统,形成演员模糊逻辑系统模块和评论家模糊逻辑系统模块;所述演员模糊逻辑系统模块基于最优控制器,用于执行多机器人系统的控制行为;所述评论家模糊逻辑系统模块基于最优值函数,用于对演员模糊逻辑系统模块采取的行为做出评价,评估控制性能并反馈给演员模糊逻辑系统模块;
所述多机器人系统的具体形式为:
在步骤S2中,所述位置误差设置如下:
式中,为位置误差,Λi为机器人i的邻居集,aij为邻接矩阵的第i行第j列的元素,bi为机器人i与领航者的连接权重,为机器人i与领航者的相对位置向量,表述为编队形式,fl为领航者的轨迹,即期望轨迹,pi和pj分别为第i个和第j个机器人的位置信息;
所述速度误差设置如下:
所述编队误差设置如下:
在步骤S3中,
所述最优控制策略为:设具有最优控制器u*能够使得值函数最小,即最优值函数:
在步骤S4中,所述最优控制器为:
所述最优值函数分解为编队误差项平方项和连续函数项后的形式为:
经过模糊逻辑系统处理后,最优值函数及最优控制器转化为:
所述演员模糊逻辑系统模块的表达式为:
所述评论家模糊逻辑系统模块的表达式为:
所述演员模糊逻辑系统模块和评论家模糊逻辑系统模块的参数向量通过基于贝尔曼余差的梯度下降法实时更新:
设置贝尔曼余差为:
式中,kci为评论家模糊逻辑系统模块的学习速率,为大于0的常数,ηi的具体表示形式如下:
所述演员模糊逻辑系统模块的参数向量更新律如下所示:
式中,kai为演员模糊逻辑系统模块的学习速率,为大于0的常数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010811359.2A CN111897224B (zh) | 2020-08-13 | 2020-08-13 | 基于演员-评论家强化学习和模糊逻辑的多智能体编队控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010811359.2A CN111897224B (zh) | 2020-08-13 | 2020-08-13 | 基于演员-评论家强化学习和模糊逻辑的多智能体编队控制方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111897224A CN111897224A (zh) | 2020-11-06 |
CN111897224B true CN111897224B (zh) | 2022-04-01 |
Family
ID=73230294
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010811359.2A Active CN111897224B (zh) | 2020-08-13 | 2020-08-13 | 基于演员-评论家强化学习和模糊逻辑的多智能体编队控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111897224B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112711261B (zh) * | 2020-12-30 | 2021-12-28 | 浙江大学 | 一种基于局部视野的多智能体编队规划方法 |
CN113359476B (zh) * | 2021-07-09 | 2022-09-16 | 广东华中科技大学工业技术研究院 | 离散时间下多智能体系统的一致性控制算法设计方法 |
CN113534668B (zh) * | 2021-08-13 | 2022-06-10 | 哈尔滨工程大学 | 基于最大熵的演员-评论家框架的auv运动规划方法 |
CN116339154A (zh) * | 2023-05-30 | 2023-06-27 | 湖南工商大学 | 空间机器人捕获卫星操作的智能容错控制方法及设备 |
CN117709027B (zh) * | 2024-02-05 | 2024-05-28 | 山东大学 | 机电液耦合直线驱动系统动力学模型参数辨识方法及系统 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107943071B (zh) * | 2017-11-03 | 2020-02-07 | 中国科学院自动化研究所 | 无人车的编队保持控制方法及系统 |
CN109947131A (zh) * | 2019-04-08 | 2019-06-28 | 燕山大学 | 一种基于强化学习的多水下机器人编队控制方法 |
CN110470306B (zh) * | 2019-08-27 | 2023-03-10 | 中山大学 | 一种可保证连通性约束的基于深度强化学习的多机器人编队导航方法 |
CN110502033B (zh) * | 2019-09-04 | 2022-08-09 | 中国人民解放军国防科技大学 | 一种基于强化学习的固定翼无人机群集控制方法 |
-
2020
- 2020-08-13 CN CN202010811359.2A patent/CN111897224B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN111897224A (zh) | 2020-11-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111897224B (zh) | 基于演员-评论家强化学习和模糊逻辑的多智能体编队控制方法 | |
CN109465825B (zh) | 机械臂柔性关节的rbf神经网络自适应动态面控制方法 | |
Alanis et al. | Artificial neural networks for engineering applications | |
Lin et al. | Event-based finite-time neural control for human-in-the-loop UAV attitude systems | |
Kuo et al. | Intelligent leader-following consensus formation control using recurrent neural networks for small-size unmanned helicopters | |
CN111941432B (zh) | 一种高性能机械臂人工智能输出反馈控制方法 | |
CN112904728B (zh) | 一种基于改进型趋近律的机械臂滑模控制轨迹跟踪方法 | |
Mueller et al. | Iterative learning of feed-forward corrections for high-performance tracking | |
Qi et al. | Stable indirect adaptive control based on discrete-time T–S fuzzy model | |
CN111781827B (zh) | 基于神经网络和滑模控制的卫星编队控制方法 | |
Šuster et al. | Tracking trajectory of the mobile robot Khepera II using approaches of artificial intelligence | |
Eqtami et al. | A self-triggered model predictive control framework for the cooperation of distributed nonholonomic agents | |
Rego et al. | Lyapunov-based continuous-time nonlinear control using deep neural network applied to underactuated systems | |
CN111872937A (zh) | 一种任务空间中不确定机械臂的控制方法 | |
Van Tran et al. | Artificial chemical reaction optimization algorithm and neural network based adaptive control for robot manipulator | |
CN113759722B (zh) | 一种无人机自抗扰控制器参数优化方法 | |
Kim et al. | TOAST: Trajectory Optimization and Simultaneous Tracking Using Shared Neural Network Dynamics | |
CN117226849B (zh) | 多机械臂自适应滑模控制方法及系统 | |
CN112643673A (zh) | 基于非线干扰观测器的移动机械臂鲁棒控制方法及系统 | |
CN116449703A (zh) | 一种有限时间框架下的auh编队协同控制方法 | |
CN113485323B (zh) | 一种级联多移动机器人灵活编队方法 | |
Cui et al. | Adaptive consensus tracking control for multiple autonomous underwater vehicles with uncertain parameters | |
CN114359349B (zh) | 一种用于车辆自适应路径跟踪的终身学习方法及系统 | |
CN113359822B (zh) | 具有领航者无人机编队的自抗扰控制方法及系统 | |
CN110162084A (zh) | 基于一致性理论的飞航导弹集群系统编队控制方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |