CN114063438B - 一种数据驱动的多智能体系统pid控制协议自学习方法 - Google Patents
一种数据驱动的多智能体系统pid控制协议自学习方法 Download PDFInfo
- Publication number
- CN114063438B CN114063438B CN202111337080.6A CN202111337080A CN114063438B CN 114063438 B CN114063438 B CN 114063438B CN 202111337080 A CN202111337080 A CN 202111337080A CN 114063438 B CN114063438 B CN 114063438B
- Authority
- CN
- China
- Prior art keywords
- agent
- control protocol
- pid
- following
- learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000013528 artificial neural network Methods 0.000 claims abstract description 17
- 230000006870 function Effects 0.000 claims abstract description 16
- 230000002787 reinforcement Effects 0.000 claims abstract description 9
- 239000003795 chemical substances by application Substances 0.000 claims description 100
- 239000011159 matrix material Substances 0.000 claims description 34
- 238000011217 control strategy Methods 0.000 claims description 9
- 230000003190 augmentative effect Effects 0.000 claims description 7
- 125000004122 cyclic group Chemical group 0.000 claims description 3
- 238000011156 evaluation Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 abstract description 2
- 230000008859 change Effects 0.000 description 8
- 238000013461 design Methods 0.000 description 5
- 238000011160 research Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B11/00—Automatic controllers
- G05B11/01—Automatic controllers electric
- G05B11/36—Automatic controllers electric with provision for obtaining particular characteristics, e.g. proportional, integral, differential
- G05B11/42—Automatic controllers electric with provision for obtaining particular characteristics, e.g. proportional, integral, differential for obtaining a characteristic which is both proportional and time-dependent, e.g. P. I., P. I. D.
Landscapes
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Automation & Control Theory (AREA)
- Feedback Control In General (AREA)
Abstract
本发明公布了一种数据驱动的多智能体系统PID控制协议自学习方法,本发明针对PID控制的多智能体系统,提出最优一致性问题;将求解基于PID控制的控制协议参数转化为求解一个非零和博弈问题,提出了一种非策略Q学习算法,实现PID控制协议参数在线自学习以及多智能体系统的最优一致性;将强化学习(RL)技术和神经网络函数估计方法相结合,不要求智能体系统动态已知,完全利用可测量数据自学习PID控制协议参数。本发明方法不需要知道多智能体系统的动力学模型,就能使所有智能体达到一致状态,即达到一致性,同时能保证多智能体规定性能的最优性。
Description
技术领域
本发明涉及控制器,具体涉及一种数据驱动的多智能体系统PID控制协议自学习方法。
背景技术
多智能体的一致性一直是复杂动力系统的关键问题之一,指的是分布在网络中的所有智能体能渐进地达到相同的状态。虽然已有关于多智能体系统的一致性或最优一致性的研究成果,但是这些方法主要是利用系统的“当前”信息来设计一致性或同步协议。从而呈现出有前景的新研究课题,即不仅是“现在”信息,还可以是“过去”信息甚至“未来”趋势。
PID控制器可以很好地利用跟踪误差的过去值、现在值和未来趋势,以期获得良好的瞬态,并且性能稳定。现有的基于PID的多智能体系统一致性问题的结果一般是利用基于模型的控制理论得出的,但是复杂动力系统的不确定性、大规模尺度和变量间的耦合使得精确系统模型的构建越来越困难,这促使我们开展基于数据驱动(DD)PID的多智能体系统一致性研究。而众所周知的Ziegler-Nichols方法和Chien-Hrones-Reswick方法可以利用测试数据对简单的线性未知系统很好地工作,但由于缺乏对不确定动态系统的自适应能力,它们很难保持良好的控制性能和稳定性。因此,基于一次性实验数据的DD PID控制、迭代学习控制与极值寻优、粒子群优化与线性二次调节器、自适应更新规则得到了相当多的关注。这些方法为DD PID的研究奠定了坚实的基础。但现有数据驱动的多智能体系统PID一致性控制协议设计方法仍缺乏自学习的能力,强化学习具有与未知环境交换自主学习优化系统性能的控制策略的能力。
据我们所知,针对多智能体系统最优一致性问题,如何采用强化学习技术,设计数据驱动的PID控制协议参数仍然是一个悬而未决的问题。如果要设计使所有智能体达到一致性的DD PID自学习控制协议,就必须解决PID控制中未知的智能体模型、智能体之间的耦合关系以及PID控制所具有的多控制参数所带来的棘手挑战。
发明内容
针对无模型PID多智能体系统一致性的问题,本发明提供了一种数据驱动的多智能体系统PID控制协议自学习方法,该方法不需要知道多智能体系统的动力学模型,就能使所有智能体达到一致状态,即达到一致性,同时能保证多智能体规定性能的最优性。
为了解决现有技术存在的问题,本发明采用以下技术方案:
本发明一种数据驱动的多智能体系统PID控制协议自学习方法,所述多智能体系统为:
xi(k+1)=Axi(k)+Bui(k) (1)
其中xi(k)∈Rn,ui(k)∈Rr(i=1,…,N)是智能体i的状态向量和控制输入,对所有的智能体i,k∈V,A∈Rn×n,B∈Rn×p;
由所述多智能体动力学模型,定义智能体i的局部邻居误差:
其中eij是多智能体的边权;
智能体i在k+1时刻的局部邻居误差δi(k+1)的动力学方程表示如下:
包括以下步骤:
S1:构建PID控制协议:
ui(z)=Ci(z)δi(z) (4)
其中:
Ki,p、Ki,i、Ki,d分别为比例控制增益、积分控制增益和微分控制增益;z为被控输出,Ci(z)为离散时间的PID控制器;Ci(z)的状态空间实现写为:
其中xi,c(k)∈R2r是对应于智能体i的PID控制器的动力学状态:
Cc=[Ir Ir],Dc=Ki,p+Ki,i+Ki,d
Ir为r×r的单位矩阵;
S2:将PID控制协议(6)应用于系统(3)产生以下闭环系统:
其中xj,c(k)是对应于智能体j的PID控制器的动力学状态,δj(k)为智能体j的邻居误差,Dj,c是对应智能体j时的PID三个参数之和;
S3:令结合(6)和(7)得到增广形式:
得到:
其中:
分别是对应智能体j时的量;
S4:设计最优控制协议使如下性能指标最小:
其中Qi≥0,Ri≥0(i=1,2,…N)是对称加权矩阵,T表示转置;
S5:对应(12)式的值函数写为:
S6:提出如下Hamilton-Jacobi-Bellman(HJB)方程:
S7:得到Q函数的HJB方程:
S8:得到最优控制协议:
S9:寻找最优权矩阵Wi *。
进一步地,所述Q函数的HJB方程采用基于策略迭代的强化学习算法,求解非零和博弈的Nash均衡解,求解过程包括以下步骤:
①初始化:选择任意允许的控制协议
②策略评估:对所有智能体的矩阵Wi j+1进行如下步骤:
③智能体进行策略更新:
④||Wi j+1-Wi j||≤ε时停止循环,否则回到第②步;
其中,是局部邻居误差和控制器状态的增广形式,Qi≥0,Ri≥0(i=1,2,…N)是对称加权矩阵,/>是矩阵Wi j+1里的分量。
进一步地,所述步骤S9寻找最优权矩阵Wi *,包括以下步骤:
1)用如下神经网络估计Q函数:
其中,γi表示矩阵Wi的分量;
2)基于Kronecker乘积,有:
其中,ωci=vec(Wi), 表示Kronecker乘积;
3)令γi,22=γi,23=γi,32=0,得到控制协议:
4)推导出以下Critic神经网络的误差:
其中:
j是自然数,表示迭代指标;
5)所述Critic神经网络估计权值采用如下方程更新:
其中lc表示学习率。
进一步地,所述步骤5)采用基于DD PID一致性控制协议自学习算法求解,找到最优权矩阵Wi *,包括以下步骤:
⑴初始化:
⑵循环迭代,包括以下步骤:
①从每个智能体给定的初始状态开始:
a.计算所有智能体的控制策略
b.收集数据
②Critic神经网络权重更新规则:
c.
d.控制策略的参数更新
e.更新PID控制器参数
⑶结束循环,否则进行j=j+1的迭代并返回步骤⑵。
优选地,所述初始化包括:设置初始Critic权重和初始控制策略/>计算初始PID控制器参数/>迭代指数j=0。
优选地,采用式(11)和(23)计算初始PID控制器参数
优选地,所述步骤a利用式(22)计算所有智能体的控制策略
优选地,所述步骤b利用公式收集数据/>
本发明所具有的优点和有益效果是:
本发明一种数据驱动的多智能体系统PID控制协议自学习方法,通过主动与未知环境交互来更新控制协议参数,保证了多智能体系统的一致性和性能优化。本发明针对PID控制的多智能体系统,提出最优一致性问题;将求解基于PID控制的控制协议参数转化为求解一个非零和博弈问题,提出了一种非策略Q学习算法,实现PID控制协议参数在线自学习以及多智能体系统的最优一致性;将强化学习(RL)技术和神经网络函数估计方法相结合,不要求智能体系统动态已知,完全利用可测量数据自学习PID控制协议参数。本发明方法不需要知道多智能体系统的动力学模型,就能使所有智能体达到一致状态,即达到一致性,同时能保证多智能体规定性能的最优性。
附图说明
下面结合附图对本发明作进一步详述:
图1为通信拓扑图;
图2为PID控制智能体1Critic权值变化轨迹;
图3为PID控制智能体2Critic权值变化轨迹;
图4为PID控制智能体3Critic权值变化轨迹;
图5为PID控制智能体4Critic权值变化轨迹;
图6为PI控制智能体1Critic权值变化轨迹;
图7为PI控制智能体2Critic权值变化轨迹;
图8为PI控制智能体3Critic权值变化轨迹;
图9为PI控制智能体4Critic权值变化轨迹;
图10为PID控制局部邻居误差变化轨迹;
图11为PI控制局部邻居误差变化轨迹;
图12为PID控制系统状态变化轨迹;
图13为PI控制系统状态变化轨迹;
图14为本发明方法流程图;
图15为基于策略迭代的强化学习算法求解非零和博弈的Nash均衡解流程图;
图16为基于DD PID一致性控制协议自学习算法求解,找到最优权矩阵Wi *流程图。
具体实施方式
下面结合具体实施例对本发明进行进一步详细说明,但本发明的保护范围不受具体的实施例所限制,以权利要求书为准。另外,以不违背本发明技术方案的前提下,对本发明所作的本领域普通技术人员容易实现的任何改动或改变都将落入本发明的权利要求范围内。
本发明一种数据驱动的多智能体系统PID控制协议自学习方法,所针对的多智能体系统为:
xi(k+1)=Axi(k)+Bui(k) (1)
其中xi(k)∈Rn,ui(k)∈Rr(i=1,…,N)是智能体i的状态向量和控制输入,此外,对所有的智能体i,k∈V,A∈Rn×n,B∈Rn×p。
由所述多智能体动力学模型,定义智能体i的局部邻居误差:
其中eij是多智能体的边权;
智能体i在k+1时刻的局部邻居误差δi(k+1)的动力学方程可以表示如下:
其中,带节点N的有向简单图可以表示为V={1,…,N}是有限的非空节点集,A={(i,j):i,j∈V,j≠i}是边的集合,E=[eij]∈RN×N是描述边权的矩阵,节点i的邻居记为Ni={j∈V:(j,i)∈A}。拉普拉斯矩阵可定义为L=D-E,其中D=diag{d1,…,dN}∈RN×N为/>的入度矩阵。
如图14所示,本发明一种数据驱动的多智能体系统PID控制协议自学习方法包括以下步骤:
S1:构建PID控制协议:
ui(z)=Ci(z)δi(z) (4)
其中:
Ki,p、Ki,i、Ki,d分别为比例控制增益、积分控制增益和微分控制增益。z为被控输出,Ci(z)为离散时间的PID控制器。此外,Ci(z)的状态空间实现写为:
其中:xi,c(k)∈R2r是对应于智能体i的PID控制器的动力学状态:
Cc=[Ir Ir],Dc=Ki,p+Ki,i+Ki,d
Ir为r×r的单位矩阵。
S2:将PID控制协议(6)应用于系统(3)产生以下闭环系统:
其中:xj,c(k)是对应于智能体j的PID控制器的动力学状态,δj(k)为智能体j的邻居误差,Dj,c是对应智能体j时的PID三个参数之和。
S3:令结合(6)和(7)得到增广形式:
其中:
分别是对应智能体j时的量。
因此,多智能体系统的一致性问题可以转化为求解一个非零和博弈问题。即:S4设计最优控制协议使如下性能指标最小:
其中Qi≥0,Ri≥0(i=1,2,…N)是对称加权矩阵。T表示转置。
如果以上问题的解,即可以使得状态/>渐近稳定并基于博弈论和李雅普诺夫理论最小化性能指标,那么它们肯定保证了(3)和(6)的渐近稳定性,从而获得所有智能体的一致性。
S5:根据强化学习技术,对应(12)式的值函数可写为:
S6:基于动态规划理论,提出如下Hamilton-Jacobi-Bellman(HJB)方程:
S7:利用价值函数和Q函数之间的关系,得到Q函数的HJB方程:
S8:得到最优控制协议:
S9:寻找最优权矩阵Wi *。
根据式(12)所示,说明了序列是所有智能体的非零和博弈的纳什均衡解,并保证了局部邻域误差δi(k)的渐近稳定性,以及多智能体系统的一致性。
如图15所示,所述Q函数的HJB方程采用基于策略迭代的强化学习算法,求解非零和博弈的Nash均衡解,求解过程包括以下步骤:
①初始化:选择任意允许的控制协议
②策略评估:对所有智能体的矩阵Wi j+1进行如下步骤:
③智能体进行策略更新:
④||Wi j+1-Wi j||≤ε(ε是一个很小的整数)时停止循环,否则回到第②步;其中,是局部邻居误差和控制器状态的增广形式,Qi≥0,Ri≥0(i=1,2,…N)是对称加权矩阵,/>是矩阵Wi j+1里的分量。
由于控制协议是虚拟的,如何找到最优权矩阵Wi *是将要完成的关键点。另外,式(19)与式(9)不一致。下面的内容将会解决这些问题。
所述步骤S9寻找最优权矩阵Wi *,包括以下步骤:
1)用如下神经网络估计Q函数:
其中,γi表示矩阵Wi的分量。
2)基于Kronecker乘积,有:
其中,ωci=vec(Wi), 表示Kronecker乘积。
3)令γi,22=γi,23=γi,32=0,得到控制协议:
所以,PID控制器参数为:
假设是ωci的估计值,则/>可以近似为:
则:
4)推导出以下Critic神经网络的误差:
其中:
j是自然数,表示迭代指标。
5)所述Critic神经网络估计权值采用如下方程更新:
其中lc表示学习率。
如图16所示,所述步骤5)采用基于DD PID一致性控制协议自学习算法求解,找到最优权矩阵Wi *,包括以下步骤:
⑴初始化:设置初始Critic权重和初始控制策略/>并用式(11)和(23)计算初始PID控制器参数/>迭代指数j=0;
⑵循环迭代:
①从每个智能体给定的初始状态开始:
a.用式(22)计算所有智能体的控制策略
b.利用公式收集数据/>
②Critic神经网络权重更新规则:
c.
d.控制策略的参数更新
e.更新PID控制器参数
⑶(ε是一个很小的整数)结束循环,否则进行j=j+1的迭代并返回步骤⑵。
其中,是初始Critic权重,/>是初始控制策略,Ki,i,Ki,p,Ki,d分别是PID控制器的比例、积分微分的参数,/>是初始状态,/>是智能体i的控制策略,δi(k)是智能体i局部邻居误差,/>是局部邻居误差和控制器状态的增广形式,/>是Critic权重,/>γi,33和γi,13均为Wi矩阵的一项,eci(k)是Critic神经网络的误差,/>lc表示学习率。
实施例1:
多智能体系统矩阵:
图1所示,给出通信拓扑图,多智能体边权为:
e12=0.8,e14=0.7,e21=0.8,e31=0.8,e32=0.5,e43=0.8。
图2-9显示了四个智能体的Critic神经网络权重的演化过程。一旦找到了Critic神经网络权重,就可以计算PID和PI控制参数。可以发现,在学习到的PID控制协议下,所有智能体已经达成一致,如图10和图12所示,其中绘制了邻居误差状态和所有智能体达到一致性最优的状态。
为了证明在PID一致控制协议下实现的控制性能可能比状态反馈控制或比例积分(PI)控制更好,展示所开发的无模型PID一致性控制方法的通用性,我们将PI与PID形成对比。
按照式(4)-(6)所示的基于PID的一致性控制的思想,PI控制协议的形式与它们略有不同。
其中Ac=Ir,Bi,c=Ki,i,Cc=Ir,Di,c=Ki,i+Ki,p。
PI控制器参数为:
图10、11分别绘制了基于PID控制器和PI控制器的多智能体邻居误差的轨迹图,图12、13分别绘制了基于PID控制器和PI控制器下所有智能体的状态。从图10-13可以发现,在相同的干扰下,与基于PI的控制方法相比,使用基于PID的一致性控制协议收敛速度较快,抗干扰效果更好。这也证明了本文提出的方法在DD PID和DD PI控制器设计中的泛化能力。
Claims (5)
1.一种数据驱动的多智能体系统PID控制协议自学习方法,所述多智能体系统为:
xi(k+1)=Axi(k)+Bui(k) (1)
其中xi(k)∈Rn,ui(k)∈Rr,i=1,…,N是智能体i的状态向量和控制输入,对所有的智能体i,k∈V,A∈Rn×n,B∈Rn×p;
由所述多智能体动力学模型,定义智能体i的局部邻居误差:
其中eij是多智能体的边权;
智能体i在k+1时刻的局部邻居误差δi(k+1)的动力学方程表示如下:
其特征在于:包括以下步骤:
S1:构建PID控制协议:
ui(z)=Ci(z)δi(z) (4)
其中:
Ki,p、Ki,i、Ki,d分别为比例控制增益、积分控制增益和微分控制增益;z为被控输出,Ci(z)为离散时间的PID控制器;Ci(z)的状态空间实现写为:
其中xi,c(k)∈R2r是对应于智能体i的PID控制器的动力学状态:
Cc=[Ir Ir],Dc=Ki,p+Ki,i+Ki,d
Ir为r×r的单位矩阵;
S2:将PID控制协议(6)应用于系统(3)产生以下闭环系统:
其中xj,c(k)是对应于智能体j的PID控制器的动力学状态,δj(k)为智能体j的邻居误差,Dj,c是对应智能体j时的PID三个参数之和;
S3:令结合(6)和(7)得到增广形式:
得到:
其中:
分别是对应智能体j时的量;
S4:设计最优控制协议使如下性能指标最小:
其中Qi≥0,Ri≥0,i=1,2,…N是对称加权矩阵,T表示转置;
S5:对应(12)式的值函数写为:
S6:提出如下HJB方程:
S7:得到Q函数的HJB方程:
S8:得到最优控制协议:
S9:寻找最优权矩阵
所述Q函数的HJB方程采用基于策略迭代的强化学习算法,求解非零和博弈的Nash均衡解,求解过程包括以下步骤:
①初始化:选择任意允许的控制协议
②策略评估:对所有智能体的矩阵进行如下步骤:
③智能体进行策略更新:
④时停止循环,否则回到第②步;
其中, 是局部邻居误差和控制器状态的增广形式,Qi≥0,Ri≥0,i=1,2,…N是对称加权矩阵,/>是矩阵Wi j+1里的分量;
所述步骤S9寻找最优权矩阵包括以下步骤:
1)用如下神经网络估计Q函数:
其中,γi表示矩阵Wi的分量;
2)基于Kronecker乘积,有:
其中,ωci=vec(Wi), 表示Kronecker乘积;
3)令γi,22=γi,23=γi,32=0,得到控制协议:
4)推导出以下Critic神经网络的误差:
其中:
j是自然数,表示迭代指标;
5)所述Critic神经网络估计权值采用如下方程更新:
其中lc表示学习率;
所述步骤5)采用基于DD PID一致性控制协议自学习算法求解,找到最优权矩阵包括以下步骤:
⑴初始化:
⑵循环迭代,包括以下步骤:
①从每个智能体给定的初始状态开始:
a.计算所有智能体的控制策略
b.收集数据
②Critic神经网络权重更新规则:
d.控制策略的参数更新
e.更新PID控制器参数
⑶结束循环,否则进行j=j+1的迭代并返回步骤⑵。
2.根据权利要求1所述的一种数据驱动的多智能体系统PID控制协议自学习方法,其特征在于,所述初始化包括:设置初始Critic权重初始控制策略/>计算初始PID控制器参数/>迭代指数j=0。
3.根据权利要求2所述的一种数据驱动的多智能体系统PID控制协议自学习方法,其特征在于:采用式(11)和(23)计算初始PID控制器参数
4.根据权利要求1所述的一种数据驱动的多智能体系统PID控制协议自学习方法,其特征在于:所述步骤a利用式(22)计算所有智能体的控制策略
5.根据权利要求1所述的一种数据驱动的多智能体系统PID控制协议自学习方法,其特征在于:所述步骤b利用公式收集数据/>
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111337080.6A CN114063438B (zh) | 2021-11-12 | 2021-11-12 | 一种数据驱动的多智能体系统pid控制协议自学习方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111337080.6A CN114063438B (zh) | 2021-11-12 | 2021-11-12 | 一种数据驱动的多智能体系统pid控制协议自学习方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114063438A CN114063438A (zh) | 2022-02-18 |
CN114063438B true CN114063438B (zh) | 2023-09-22 |
Family
ID=80275272
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111337080.6A Active CN114063438B (zh) | 2021-11-12 | 2021-11-12 | 一种数据驱动的多智能体系统pid控制协议自学习方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114063438B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114938374B (zh) * | 2022-05-10 | 2023-05-23 | 北京交通大学 | 跨协议负载均衡方法及系统 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5497063A (en) * | 1993-09-16 | 1996-03-05 | Allen-Bradley Company, Inc. | Fuzzy logic servo controller |
KR20130034523A (ko) * | 2011-09-28 | 2013-04-05 | 한국전력공사 | 과열기 온도 제어 방법 |
CN105487376A (zh) * | 2015-12-30 | 2016-04-13 | 南京航空航天大学 | 一种基于数据驱动单网络结构的最优控制方法 |
CN108488572A (zh) * | 2018-05-23 | 2018-09-04 | 高新兴科技集团股份有限公司 | 一种主动式防抖云台及其控制方法 |
CN109270833A (zh) * | 2018-10-23 | 2019-01-25 | 大连海事大学 | 一种基于无刷直流电机q学习的变论域模糊控制方法 |
CN110376879A (zh) * | 2019-08-16 | 2019-10-25 | 哈尔滨工业大学(深圳) | 一种基于神经网络的pid型迭代学习控制方法 |
CN110502034A (zh) * | 2019-09-04 | 2019-11-26 | 中国人民解放军国防科技大学 | 一种基于深度强化学习的固定翼无人机群集控制方法 |
CN110782011A (zh) * | 2019-10-21 | 2020-02-11 | 辽宁石油化工大学 | 一种基于强化学习的网络化多智能体系统分布式优化控制方法 |
CN113352320A (zh) * | 2021-05-11 | 2021-09-07 | 浙江工业大学 | 一种基于Q学习的Baxter机械臂智能优化控制方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6216083B1 (en) * | 1998-10-22 | 2001-04-10 | Yamaha Motor Co., Ltd. | System for intelligent control of an engine based on soft computing |
-
2021
- 2021-11-12 CN CN202111337080.6A patent/CN114063438B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5497063A (en) * | 1993-09-16 | 1996-03-05 | Allen-Bradley Company, Inc. | Fuzzy logic servo controller |
KR20130034523A (ko) * | 2011-09-28 | 2013-04-05 | 한국전력공사 | 과열기 온도 제어 방법 |
CN105487376A (zh) * | 2015-12-30 | 2016-04-13 | 南京航空航天大学 | 一种基于数据驱动单网络结构的最优控制方法 |
CN108488572A (zh) * | 2018-05-23 | 2018-09-04 | 高新兴科技集团股份有限公司 | 一种主动式防抖云台及其控制方法 |
CN109270833A (zh) * | 2018-10-23 | 2019-01-25 | 大连海事大学 | 一种基于无刷直流电机q学习的变论域模糊控制方法 |
CN110376879A (zh) * | 2019-08-16 | 2019-10-25 | 哈尔滨工业大学(深圳) | 一种基于神经网络的pid型迭代学习控制方法 |
CN110502034A (zh) * | 2019-09-04 | 2019-11-26 | 中国人民解放军国防科技大学 | 一种基于深度强化学习的固定翼无人机群集控制方法 |
CN110782011A (zh) * | 2019-10-21 | 2020-02-11 | 辽宁石油化工大学 | 一种基于强化学习的网络化多智能体系统分布式优化控制方法 |
CN113352320A (zh) * | 2021-05-11 | 2021-09-07 | 浙江工业大学 | 一种基于Q学习的Baxter机械臂智能优化控制方法 |
Non-Patent Citations (2)
Title |
---|
Design and application of a data-driven PID controller;Shin Wakitani,等;《 2014 IEEE Conference on Control Applications (CCA)》;全文 * |
船舶航向自适应控制的改进ADHDP方法;李宇栋,等;《湖北民族学院学报(自然科学版)》;第36卷(第2期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN114063438A (zh) | 2022-02-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wang et al. | The intelligent critic framework for advanced optimal control | |
Zhang et al. | Data-driven optimal consensus control for discrete-time multi-agent systems with unknown dynamics using reinforcement learning method | |
Peng et al. | Data-driven optimal tracking control of discrete-time multi-agent systems with two-stage policy iteration algorithm | |
Wang et al. | Adaptive dynamic programming: An introduction | |
Lin et al. | Fuzzy neural adaptive tracking control of unknown chaotic systems with input saturation | |
CN110782011A (zh) | 一种基于强化学习的网络化多智能体系统分布式优化控制方法 | |
CN109932905B (zh) | 一种基于非策略的观测器状态反馈的优化控制方法 | |
CN112947084A (zh) | 一种基于强化学习的模型未知多智能体一致性控制方法 | |
CN114362187B (zh) | 一种基于多智能体深度强化学习的有源配电网协同调压方法及系统 | |
CN113919485A (zh) | 基于动态层级通信网络的多智能体强化学习方法及系统 | |
Liu et al. | Intermittent event-triggered optimal leader-following consensus for nonlinear multi-agent systems via actor-critic algorithm | |
CN114063438B (zh) | 一种数据驱动的多智能体系统pid控制协议自学习方法 | |
Fang et al. | Solving the zero-sum control problem for tidal turbine system: An online reinforcement learning approach | |
El-Nagar | Embedded intelligent adaptive PI controller for an electromechanical system | |
Yan et al. | Sliding mode control based on reinforcement learning for TS fuzzy fractional-order multiagent system with time-varying delays | |
CN117055605A (zh) | 多无人机姿态控制方法及系统 | |
Sun et al. | Optimal tracking control of switched systems applied in grid-connected hybrid generation using reinforcement learning | |
Sun et al. | Consensus for multiagent systems under output constraints and unknown control directions | |
Chen et al. | Fixed-time cooperative tracking control for double-integrator multiagent systems: A time-based generator approach | |
Hager et al. | Adaptive Neural network control of a helicopter system with optimal observer and actor-critic design | |
CN112564557B (zh) | 一种永磁同步电机的控制方法、装置、设备及存储介质 | |
Lin et al. | Adaptive fuzzy prescribed performance output-feedback cooperative control for uncertain nonlinear multiagent systems | |
Chen et al. | Neuroadaptive tracking control of affine nonlinear systems using echo state networks embedded with multiclustered structure and intrinsic plasticity | |
Dong et al. | Graphical minimax game and off-policy reinforcement learning for heterogeneous MASs with spanning tree condition | |
Ye et al. | Costate-supplement ADP for model-free optimal control of discrete-time nonlinear systems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |