CN112149361A - 一种线性系统自适应最优控制方法和装置 - Google Patents

一种线性系统自适应最优控制方法和装置 Download PDF

Info

Publication number
CN112149361A
CN112149361A CN202011078377.0A CN202011078377A CN112149361A CN 112149361 A CN112149361 A CN 112149361A CN 202011078377 A CN202011078377 A CN 202011078377A CN 112149361 A CN112149361 A CN 112149361A
Authority
CN
China
Prior art keywords
leader
control strategy
follower
optimal control
optimal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011078377.0A
Other languages
English (en)
Other versions
CN112149361B (zh
Inventor
秦家虎
李曼
万艳妮
马麒超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN202011078377.0A priority Critical patent/CN112149361B/zh
Priority claimed from CN202011078377.0A external-priority patent/CN112149361B/zh
Publication of CN112149361A publication Critical patent/CN112149361A/zh
Application granted granted Critical
Publication of CN112149361B publication Critical patent/CN112149361B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/11Complex mathematical operations for solving equations, e.g. nonlinear equations, general mathematical optimization problems

Abstract

本发明公开了一种线性系统自适应最优控制方法和装置,方法包括:构建具有领导者和跟随者的两输入线性系统;设计两输入线性系统每个参与者的目标函数;构建最优目标函数和最优控制策略满足的方程;设计值迭代强化学习算法计算最优目标函数和最优控制策略;利用最小二乘法,给出强化学习算法的一种实现;基于强化学习算法的一种实现所确定的控制器实现自适应最优控制。本发明考虑了实际应用中决策的参与者具有不平等地位和决策顺序有先后的现象,以及实际系统的精确的动力学模型通常难以获取的难题,通过充分利用系统的输入输出信息设计控制策略,能够在参与者具有不平等地位的情况下实现自适应最优控制。

Description

一种线性系统自适应最优控制方法和装置
技术领域
本发明涉及线性系统控制技术领域,尤其涉及一种线性系统自适应最优控制方法和装置。
背景技术
自然界及人类社会中的系统的一个重要特征是包含多个决策者。决策者通常具有自私属性,即试图采取能够使自身性能指标最优的策略。策略设计的一个有效的工具是博弈论。在大多数已有的工作中,通常考虑所有的参与者的行为是同时的,即,考虑所有参与者处于平等的地位且同时决定各自的策略。然而,在很多实际场景中,某些个体可能比其他参与者掌握更多的信息,且能够优先采取行动。比如,在电力系统中,分布式能源站首先决定电价并主导市场,而消费者随后决定自己的能源消耗量。
斯塔克伯格博弈被广泛用来建模和研究这种分层决策问题。在斯塔克伯格博弈中,通常具有两个参与者:领导者和跟随者。领导者在考虑跟随者可能的合理响应的情况下优先决定自己的策略,而跟随者在观察到领导者的策略后,据此采取对自己最有利的策略。因此,斯塔克伯格博弈通常被描述为一个具有分层且耦合结构的双层优化问题。
在实际系统如电力系统、机器人系统中,博弈参与者的状态通常满足一个动态方程。为了研究方便,该动态方程可以考虑线性形式。当考虑博弈参与者的状态满足一个线性动态方程约束时,斯塔克伯格博弈问题的解满足一组耦合的非线性偏微分方程(PDEs),即Hamilton-Jacobi-Bellman(HJB)方程。众所周知,我们几乎不可能给出耦合PDEs的解析解,而且估计PDEs的解也是非常困难的。目前已有的方法大多依赖于精确的、完整的系统动力学方程的信息,而这一信息在实际应有中通常难以获取。
因此,如何合理的建模参与者之间的分层决策关系,如何充分利用系统与环境的交互,设计不依赖于完整的系统动力学模型信息的控制器是亟需解决的问题。
发明内容
有鉴于此,本发明提供了一种线性系统自适应最优控制方法,基于斯塔克伯格博弈,能够充分考虑实际应用中决策的参与者具有不平等地位的现象,以及解决实际系统的精确的动力学模型通常难以获取的难题。
本发明提供了一种线性系统自适应最优控制方法,包括:
构建具有领导者和跟随者的两输入线性系统;
设计所述两输入线性系统每个参与者的目标函数;
构建最优目标函数和最优控制策略满足的方程;
设计值迭代强化学习算法计算最优目标函数和最优控制策略;
利用最小二乘法,给出强化学习算法的一种实现;
基于强化学习算法的一种实现所确定的控制器实现自适应最优控制。
优选地,所述构建具有领导者和跟随者的两输入线性系统,包括:
构建具有两个输入的线性系统;
将决策的参与者建模为斯塔克伯格博弈中的领导者和跟随者。
优选地,所述设计所述两输入线性系统每个参与者的目标函数,包括:
基于领导者和跟随者的决策顺序,设计关于系统状态和控制输入的成本函数;
给出相应的值函数。
优选地,所述构建最优目标函数和最优控制策略满足的方程,包括:
构建跟随者最优目标函数和最优控制策略满足的积分贝尔曼方程;
构建领导者最优目标函数和最优控制策略满足的积分贝尔曼方程。
优选地,设计值迭代强化学习算法计算最优目标函数和最优控制策略,包括:
参数初始化;
基于领导者最优控制策略满足的积分贝尔曼方程,更新领导者值函数;
基于领导者最优控制策略和当前值函数,更新领导者控制策略;
基于跟随者最优控制策略满足的积分贝尔曼方程,更新跟随者值函数;
基于跟随者最优控制策略和当前值函数,更新跟随者控制策略;
如果相邻两步迭代所得值函数之差满足期望的阈值,则停止算法,否则返回基于领导者最优控制策略满足的积分贝尔曼方程,更新领导者值函数。
优选地,所述利用最小二乘法,给出强化学习算法的一种实现,包括:
根据当前迭代步骤的值函数,构建基于积分贝尔曼方程的残差方程;
利用最小二乘法最小化残差方程中的残差,得到值函数参数向量的更新率;
给出强化学习算法的一种实现。
优选地,所述给出强化学习算法的一种实现,包括:
参数初始化;
基于一组系统输入输出数据,更新领导者值函数的参数向量;
更新领导者控制策略;
基于一组系统输入输出数据,更新跟随者值函数的参数向量;
更新跟随者控制策略;
如果相邻两步迭代所得参数向量之差满足期望的阈值,则停止算法,否则返回基于一组系统输入输出数据,更新领导者值函数的参数向量。
一种线性系统自适应最优控制装置,包括:
第一构建模块,用于构建具有领导者和跟随者的两输入线性系统;
第一设计模块,用于设计所述两输入线性系统每个参与者的目标函数;
第二构建模块,用于构建最优目标函数和最优控制策略满足的方程;
第二设计模块,用于设计值迭代强化学习算法计算最优目标函数和最优控制策略;
给出模块,用于利用最小二乘法,给出强化学习算法的一种实现;
控制模块,用于基于强化学习算法的一种实现所确定的控制器实现自适应最优控制。
优选地,所述第一构建模块具体用于:
构建具有两个输入的线性系统;
将决策的参与者建模为斯塔克伯格博弈中的领导者和跟随者。
优选地,所述第一设计模块具体用于:
基于领导者和跟随者的决策顺序,设计关于系统状态和控制输入的成本函数;
给出相应的值函数。
优选地,所述第二构建模块具体用于:
构建跟随者最优目标函数和最优控制策略满足的积分贝尔曼方程;
构建领导者最优目标函数和最优控制策略满足的积分贝尔曼方程。
优选地,所述第二设计模块具体用于:
参数初始化;
基于领导者最优控制策略满足的积分贝尔曼方程,更新领导者值函数;
基于领导者最优控制策略和当前值函数,更新领导者控制策略;
基于跟随者最优控制策略满足的积分贝尔曼方程,更新跟随者值函数;
基于跟随者最优控制策略和当前值函数,更新跟随者控制策略;
如果相邻两步迭代所得值函数之差满足期望的阈值,则停止算法,否则返回基于领导者最优控制策略满足的积分贝尔曼方程,更新领导者值函数。
优选地,所述给出模块具体用于:
根据当前迭代步骤的值函数,构建基于积分贝尔曼方程的残差方程;
利用最小二乘法最小化残差方程中的残差,得到值函数参数向量的更新率;
给出强化学习算法的一种实现。
优选地,所述给出模块在执行给出强化学习算法的一种实现时,具体用于:
参数初始化;
基于一组系统输入输出数据,更新领导者值函数的参数向量;
更新领导者控制策略;
基于一组系统输入输出数据,更新跟随者值函数的参数向量;
更新跟随者控制策略;
如果相邻两步迭代所得参数向量之差满足期望的阈值,则停止算法,否则返回基于一组系统输入输出数据,更新领导者值函数的参数向量。
综上所述,本发明公开了一种线性系统自适应最优控制方法,当需要对线性系统进行自适应最优控制时,首先构建具有领导者和跟随者的两输入线性系统,然后设计两输入线性系统每个参与者的目标函数,构建最优目标函数和最优控制策略满足的方程,设计值迭代强化学习算法计算最优目标函数和最优控制策略;利用最小二乘法,给出强化学习算法的一种实现,基于强化学习算法的一种实现所确定的控制器实现自适应最优控制。本发明基于斯塔克伯格博弈,能够充分考虑实际应用中决策的参与者具有不平等地位的现象,以及解决实际系统的精确的动力学模型通常难以获取的难题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明公开的一种线性系统自适应最优控制方法实施例的流程图;
图2为本发明公开的一种领导者的值函数参数向量演化示意图;
图3为本发明公开的一种跟随者的值函数参数向量演化示意图;
图4为本发明公开的一种线性系统的状态演化示意图;
图5为本发明公开的一种线性系统自适应最优控制装置实施例的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,为本发明公开的一种线性系统自适应最优控制方法实施例的流程图,所述方法可以包括以下步骤:
S101、构建具有领导者和跟随者的两输入线性系统;
当需要对线性系统进行自适应最优控制时,首先构建具有领导者和跟随者的两输入线性系统。
具体的,首先构建具有两个输入的线性系统;
考虑能够建模成如下具有两个输入的一般线性系统:
Figure BDA0002717347800000061
其中,x∈Rn表示系统状态,u1,u2∈Rp表示系统控制输入,A∈Rn×n和B∈Rn×p表示系统矩阵。为了便于将线性系统的控制问题建模成博弈问题研究,本发明考虑上述系统控制中具有两个决策参与者,其策略分别为u1和u2
然后,将决策的参与者建模为斯塔克伯格博弈中的领导者和跟随者。
根据决策的参与者的性质,将其分别建模为领导者和跟随者。领导者优先采取行动,并有能力预测另一参与者可能采取的行动;跟随者观察到领导者的行动后随之采取对自己最有利的动作。
S102、设计两输入线性系统每个参与者的目标函数;
具体的,首先考虑领导者和跟随者的决策顺序,设计关于系统状态和控制输入的成本函数:
Figure BDA0002717347800000071
其中,ri(x(t),u1(t),u2(t))=xT(t)Qix(t)+(ui(t)+θiuj(t))TRi(ui(t)+θiuj(t)),i,j=1,2,i≠j,t0表示初始时刻,Qi≥0,Ri>0,θi∈(0,1),
Figure BDA0002717347800000072
是能观的。
然后,给出相应的值函数(即,目标函数),决策者i的值函数定义为:
Vi(x(t))=∫t ri(x(τ),u1(τ),u2(τ))dτ
S103、构建最优目标函数和最优控制策略满足的方程;
具体的,首先构建跟随者最优目标函数和最优控制策略满足的方程;
按照自下而上的原则,首先对跟随者进行分析。用
Figure BDA0002717347800000073
表示第i个参与者的最优值函数,
Figure BDA0002717347800000074
表示第i个参与者的最优控制策略。跟随者的最优值函数表示为
Figure BDA0002717347800000075
其中,
Figure BDA0002717347800000076
为半正定矩阵,且
Figure BDA0002717347800000077
满足如下积分贝尔曼方程:
Figure BDA0002717347800000078
对于任意给定的领导者策略u1,跟随者的最优响应策略为:
Figure BDA0002717347800000081
其中,
Figure BDA0002717347800000082
Figure BDA0002717347800000083
分别表示领导者和跟随者的最优控制策略。
然后,构建领导者最优目标函数和最优控制策略满足的方程;
领导者的最优值函数为
Figure BDA0002717347800000084
其中,
Figure BDA0002717347800000085
为半正定矩阵,且
Figure BDA0002717347800000086
满足如下积分贝尔曼方程:
Figure BDA0002717347800000087
考虑到领导者能够预测跟随者的最优响应策略的形式,将上述分析得到的
Figure BDA0002717347800000088
代入到领导者的值函数中,分析可得,领导者的最优控制策略为:
Figure BDA0002717347800000089
S104、设计值迭代强化学习算法计算最优目标函数和最优控制策略;
然后,设计值迭代强化学习算法计算步骤S103中推导的最优值函数和最优控制策略。
具体的,首先初始化
Figure BDA00027173478000000810
i=1,2,s=0表示迭代步数,ε>0表示期望的近似精度;
然后,更新领导者值函数:
Figure BDA00027173478000000811
然后,更新领导者控制策略:
Figure BDA00027173478000000812
然后,更新跟随者值函数:
Figure BDA0002717347800000091
然后,更新跟随者值控制策略:
Figure BDA0002717347800000092
然后,如果
Figure BDA0002717347800000093
i=1,2,则停止算法;否则令s=s+1,并返回更新领导者值函数。
S105、利用最小二乘法,给出强化学习算法的一种实现;
然后,利用最小二乘法,给出步骤S104中强化学习算法的一种实现。
具体的,首先构建基于积分贝尔曼方程的残差方程;为了便于表示,首先将用
Figure BDA0002717347800000094
代替上述算法中的
Figure BDA0002717347800000095
其中,
Figure BDA0002717347800000096
为值函数权重向量,通过将
Figure BDA0002717347800000097
中的元素按列排列得到,
Figure BDA0002717347800000098
由x(t)的二次型得到,其排列顺序与
Figure BDA0002717347800000099
中的元素对应。基于此,可以得到如下残差方程:
Figure BDA00027173478000000910
其中:
Figure BDA00027173478000000911
然后,利用最小二乘法最小化上述残差方程中的残差,得到值函数参数向量
Figure BDA00027173478000000912
的更新率,为:
Figure BDA00027173478000000913
其中:
Figure BDA00027173478000000914
Figure BDA00027173478000000915
t1,…,tM为M个采样时刻。
然后,给出步骤S104中强化学习算法的一种实现;
具体的,首先初始化
Figure BDA0002717347800000101
i=1,2,s=0表示迭代步数,ε>0表示期望的近似精度;
然后,更新领导者的值函数参数向量:
将系统运行一段时间,采样M组系统数据(xi(tk),xi(tk+Δt),ui(tk),ui(tk+Δt)),i=1,2,k=1,…,M,Δt表示采样时间间隔,通过下式更新领导者权重:
Figure BDA0002717347800000102
然后,更新领导者控制策略:
Figure BDA0002717347800000103
其中,
Figure BDA0002717347800000104
表示
Figure BDA0002717347800000105
关于x的梯度;
然后,更新跟随者的值函数参数向量:
将系统运行一段时间,采样M组系统数据(xi(tk),xi(tk+Δt),ui(tk),ui(tk+Δt)),i=1,2,k=1,…,M,Δt表示采样时间间隔,通过下式更新跟随者权重:
Figure BDA0002717347800000106
然后,更新跟随者者控制策略:
Figure BDA0002717347800000107
然后,如果
Figure BDA0002717347800000108
i=1,2,则停止算法;否则令s=s+1,并返回更新领导者的值函数参数向量。
S106、基于强化学习算法的一种实现所确定的控制器实现自适应最优控制。
最后,用步骤S105所确定的控制器实现自适应最优控制。
下面通过一个具体实施例对本发明的技术方案进一步说明:
考虑具有二阶动力学的地面移动机器人系统,其动力学为:
Figure BDA0002717347800000111
其中,s∈R表示机器人的位置,v∈R表示机器人的速度,u1∈R表示领导者的控制输入(控制策略),u2∈R表示跟随者的控制输入(控制策略)。
将机器人的速度和位置选为状态变量,即,x=[s,v]T,则上述二阶动力学系统可以写成如下具有两个输入的一般线性系统的形式:
Figure BDA0002717347800000112
其中,
Figure BDA0002717347800000113
性能指标中的参数为:
Figure BDA0002717347800000114
R1=0.5,R2=2,θ1=0.1,θ2=0.2。
领导者和跟随者的值函数参数向量演化分别如图2和图3所示,系统的状态演化如图4所示。
综上所述,本发明考虑了实际应用中决策的参与者具有不平等地位和决策顺序有先后的现象,以及实际系统的精确的动力学模型通常难以获取的难题,通过充分利用系统的输入输出信息设计控制策略,能够在参与者具有不平等地位的情况下实现自适应最优控制。
如图5所示,为本发明公开的一种线性系统自适应最优控制装置实施例的结构示意图,所述装置可以包括:
第一构建模块501,用于构建具有领导者和跟随者的两输入线性系统;
第一设计模块502,用于设计所述两输入线性系统每个参与者的目标函数;
第二构建模块503,用于构建最优目标函数和最优控制策略满足的方程;
第二设计模块504,用于设计值迭代强化学习算法计算最优目标函数和最优控制策略;
给出模块505,用于利用最小二乘法,给出强化学习算法的一种实现;
控制模块506,用于基于强化学习算法的一种实现所确定的控制器实现自适应最优控制。
本实施例公开的线性系统自适应最优控制装置的工作原理与上述线性系统自适应最优控制方法的工作原理相同,在此不再赘述。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (14)

1.一种线性系统自适应最优控制方法,其特征在于,包括:
构建具有领导者和跟随者的两输入线性系统;
设计所述两输入线性系统每个参与者的目标函数;
构建最优目标函数和最优控制策略满足的方程;
设计值迭代强化学习算法计算最优目标函数和最优控制策略;
利用最小二乘法,给出强化学习算法的一种实现;
基于强化学习算法的一种实现所确定的控制器实现自适应最优控制。
2.根据权利要求1所述的方法,其特征在于,所述构建具有领导者和跟随者的两输入线性系统,包括:
构建具有两个输入的线性系统;
将决策的参与者建模为斯塔克伯格博弈中的领导者和跟随者。
3.根据权利要求2所述的方法,其特征在于,所述设计所述两输入线性系统每个参与者的目标函数,包括:
基于领导者和跟随者的决策顺序,设计关于系统状态和控制输入的成本函数;
给出相应的值函数。
4.根据权利要求3所述的方法,其特征在于,所述构建最优目标函数和最优控制策略满足的方程,包括:
构建跟随者最优目标函数和最优控制策略满足的积分贝尔曼方程;
构建领导者最优目标函数和最优控制策略满足的积分贝尔曼方程。
5.根据权利要求4所述的方法,其特征在于,设计值迭代强化学习算法计算最优目标函数和最优控制策略,包括:
参数初始化;
基于领导者最优控制策略满足的积分贝尔曼方程,更新领导者值函数;
基于领导者最优控制策略和当前值函数,更新领导者控制策略;
基于跟随者最优控制策略满足的积分贝尔曼方程,更新跟随者值函数;
基于跟随者最优控制策略和当前值函数,更新跟随者控制策略;
如果相邻两步迭代所得值函数之差满足期望的阈值,则停止算法,否则返回基于领导者最优控制策略满足的积分贝尔曼方程,更新领导者值函数。
6.根据权利要求5所述的方法,其特征在于,所述利用最小二乘法,给出强化学习算法的一种实现,包括:
根据当前迭代步骤的值函数,构建基于积分贝尔曼方程的残差方程;
利用最小二乘法最小化残差方程中的残差,得到值函数参数向量的更新率;
给出强化学习算法的一种实现。
7.根据权利要求6所述的方法,其特征在于,所述给出强化学习算法的一种实现,包括:
参数初始化;
基于一组系统输入输出数据,更新领导者值函数的参数向量;
更新领导者控制策略;
基于一组系统输入输出数据,更新跟随者值函数的参数向量;
更新跟随者控制策略;
如果相邻两步迭代所得参数向量之差满足期望的阈值,则停止算法,否则返回基于一组系统输入输出数据,更新领导者值函数的参数向量。
8.一种线性系统自适应最优控制装置,其特征在于,包括:
第一构建模块,用于构建具有领导者和跟随者的两输入线性系统;
第一设计模块,用于设计所述两输入线性系统每个参与者的目标函数;
第二构建模块,用于构建最优目标函数和最优控制策略满足的方程;
第二设计模块,用于设计值迭代强化学习算法计算最优目标函数和最优控制策略;
给出模块,用于利用最小二乘法,给出强化学习算法的一种实现;
控制模块,用于基于强化学习算法的一种实现所确定的控制器实现自适应最优控制。
9.根据权利要求8所述的装置,其特征在于,所述第一构建模块具体用于:
构建具有两个输入的线性系统;
将决策的参与者建模为斯塔克伯格博弈中的领导者和跟随者。
10.根据权利要求9所述的装置,其特征在于,所述第一设计模块具体用于:
基于领导者和跟随者的决策顺序,设计关于系统状态和控制输入的成本函数;
给出相应的值函数。
11.根据权利要求10所述的装置,其特征在于,所述第二构建模块具体用于:
构建跟随者最优目标函数和最优控制策略满足的积分贝尔曼方程;
构建领导者最优目标函数和最优控制策略满足的积分贝尔曼方程。
12.根据权利要求11所述的装置,其特征在于,所述第二设计模块具体用于:
参数初始化;
基于领导者最优控制策略满足的积分贝尔曼方程,更新领导者值函数;
基于领导者最优控制策略和当前值函数,更新领导者控制策略;
基于跟随者最优控制策略满足的积分贝尔曼方程,更新跟随者值函数;
基于跟随者最优控制策略和当前值函数,更新跟随者控制策略;
如果相邻两步迭代所得值函数之差满足期望的阈值,则停止算法,否则返回基于领导者最优控制策略满足的积分贝尔曼方程,更新领导者值函数。
13.根据权利要求12所述的装置,其特征在于,所述给出模块具体用于:
根据当前迭代步骤的值函数,构建基于积分贝尔曼方程的残差方程;
利用最小二乘法最小化残差方程中的残差,得到值函数参数向量的更新率;
给出强化学习算法的一种实现。
14.根据权利要求13所述的装置,其特征在于,所述给出模块在执行给出强化学习算法的一种实现时,具体用于:
参数初始化;
基于一组系统输入输出数据,更新领导者值函数的参数向量;
更新领导者控制策略;
基于一组系统输入输出数据,更新跟随者值函数的参数向量;
更新跟随者控制策略;
如果相邻两步迭代所得参数向量之差满足期望的阈值,则停止算法,否则返回基于一组系统输入输出数据,更新领导者值函数的参数向量。
CN202011078377.0A 2020-10-10 一种线性系统自适应最优控制方法和装置 Active CN112149361B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011078377.0A CN112149361B (zh) 2020-10-10 一种线性系统自适应最优控制方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011078377.0A CN112149361B (zh) 2020-10-10 一种线性系统自适应最优控制方法和装置

Publications (2)

Publication Number Publication Date
CN112149361A true CN112149361A (zh) 2020-12-29
CN112149361B CN112149361B (zh) 2024-05-17

Family

ID=

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112947078A (zh) * 2021-02-03 2021-06-11 浙江工业大学 一种基于值迭代的伺服电机智能优化控制方法
CN113189879A (zh) * 2021-05-10 2021-07-30 中国科学技术大学 控制策略的确定方法及装置、存储介质及电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013176784A1 (en) * 2012-05-24 2013-11-28 University Of Southern California Optimal strategies in security games
CN104834221A (zh) * 2015-05-25 2015-08-12 中国科学院自动化研究所 一种基于可变误差的非线性系统自适应最优控制方法
CN106354010A (zh) * 2016-09-29 2017-01-25 中国科学院自动化研究所 自适应最优控制方法及自适应最优控制系统
US20180011488A1 (en) * 2016-07-08 2018-01-11 Toyota Motor Engineering & Manufacturing North America, Inc. Control policy learning and vehicle control method based on reinforcement learning without active exploration
CN109375514A (zh) * 2018-11-30 2019-02-22 沈阳航空航天大学 一种存在假数据注入攻击时的最优跟踪控制器设计方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013176784A1 (en) * 2012-05-24 2013-11-28 University Of Southern California Optimal strategies in security games
CN104834221A (zh) * 2015-05-25 2015-08-12 中国科学院自动化研究所 一种基于可变误差的非线性系统自适应最优控制方法
US20180011488A1 (en) * 2016-07-08 2018-01-11 Toyota Motor Engineering & Manufacturing North America, Inc. Control policy learning and vehicle control method based on reinforcement learning without active exploration
CN106354010A (zh) * 2016-09-29 2017-01-25 中国科学院自动化研究所 自适应最优控制方法及自适应最优控制系统
CN109375514A (zh) * 2018-11-30 2019-02-22 沈阳航空航天大学 一种存在假数据注入攻击时的最优跟踪控制器设计方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张洪宇;徐昕;张鹏程;刘春明;宋金泽;: "双轮驱动移动机器人的学习控制器设计方法", 计算机应用研究, no. 06, 15 June 2009 (2009-06-15) *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112947078A (zh) * 2021-02-03 2021-06-11 浙江工业大学 一种基于值迭代的伺服电机智能优化控制方法
CN113189879A (zh) * 2021-05-10 2021-07-30 中国科学技术大学 控制策略的确定方法及装置、存储介质及电子设备
CN113189879B (zh) * 2021-05-10 2022-07-15 中国科学技术大学 控制策略的确定方法及装置、存储介质及电子设备

Similar Documents

Publication Publication Date Title
Bloembergen et al. Evolutionary dynamics of multi-agent learning: A survey
Khodadadi et al. An archive-based multi-objective arithmetic optimization algorithm for solving industrial engineering problems
Rafiq et al. Neural network design for engineering applications
Mirahadi et al. Simulation-based construction productivity forecast using neural-network-driven fuzzy reasoning
Zhang Multi-objective simulation-optimization for earthmoving operations
Salamzadeh et al. Entrepreneurial universities in Iran: a system dynamics model
CN112180730B (zh) 一种多智能体系统分层最优一致性控制方法和装置
Štula et al. Continuously self-adjusting fuzzy cognitive map with semi-autonomous concepts
Raina et al. Design strategy transfer in cognitively-inspired agents
Faia et al. Dynamic fuzzy estimation of contracts historic information using an automatic clustering methodology
CN112149361A (zh) 一种线性系统自适应最优控制方法和装置
CN112149361B (zh) 一种线性系统自适应最优控制方法和装置
Shafipour Yourdshahi et al. On-line estimators for ad-hoc task execution: learning types and parameters of teammates for effective teamwork
Motlagh et al. Development of application-specific adjacency models using fuzzy cognitive map
Gilmer et al. Recursive simulation to aid models of decisionmaking
KR102238424B1 (ko) 빅데이터 기계학습을 이용한 시스템 모델링방법
CN103763123A (zh) 一种网络健康状态的评估方法和装置
Chan et al. Model predictive control of Hammerstein systems with multivariable nonlinearities
MacCalman et al. Tradespace analysis for multiple performance measures
Gao et al. Environmental protection of rural ecotourism using PSR and MDP models
Bellucci et al. A Taylor series approach to the robust parameter design of computer simulations using kriging and radial basis function neural networks
Ruiz et al. Decision making through simulation in public policy management field
CN116663417B (zh) 一种虚拟地理环境角色建模方法
Chen et al. Differential game for a class of warfare dynamic systems with reinforcement based on Lanchester equation
Chen et al. Building a Belief–Desire–Intention Agent for Modeling Neural Networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant