CN112149361A - 一种线性系统自适应最优控制方法和装置 - Google Patents
一种线性系统自适应最优控制方法和装置 Download PDFInfo
- Publication number
- CN112149361A CN112149361A CN202011078377.0A CN202011078377A CN112149361A CN 112149361 A CN112149361 A CN 112149361A CN 202011078377 A CN202011078377 A CN 202011078377A CN 112149361 A CN112149361 A CN 112149361A
- Authority
- CN
- China
- Prior art keywords
- leader
- control strategy
- follower
- optimal control
- optimal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 230000003044 adaptive effect Effects 0.000 title claims abstract description 19
- 230000006870 function Effects 0.000 claims abstract description 112
- 238000011217 control strategy Methods 0.000 claims abstract description 75
- 230000002787 reinforcement Effects 0.000 claims abstract description 39
- 239000013598 vector Substances 0.000 claims description 28
- 238000010276 construction Methods 0.000 claims description 5
- 239000000126 substance Substances 0.000 description 6
- 230000009471 action Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000005070 sampling Methods 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 230000006399 behavior Effects 0.000 description 1
- 238000005183 dynamical system Methods 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 238000005265 energy consumption Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
- G06F30/27—Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/11—Complex mathematical operations for solving equations, e.g. nonlinear equations, general mathematical optimization problems
Abstract
本发明公开了一种线性系统自适应最优控制方法和装置,方法包括:构建具有领导者和跟随者的两输入线性系统;设计两输入线性系统每个参与者的目标函数;构建最优目标函数和最优控制策略满足的方程;设计值迭代强化学习算法计算最优目标函数和最优控制策略;利用最小二乘法,给出强化学习算法的一种实现;基于强化学习算法的一种实现所确定的控制器实现自适应最优控制。本发明考虑了实际应用中决策的参与者具有不平等地位和决策顺序有先后的现象,以及实际系统的精确的动力学模型通常难以获取的难题,通过充分利用系统的输入输出信息设计控制策略,能够在参与者具有不平等地位的情况下实现自适应最优控制。
Description
技术领域
本发明涉及线性系统控制技术领域,尤其涉及一种线性系统自适应最优控制方法和装置。
背景技术
自然界及人类社会中的系统的一个重要特征是包含多个决策者。决策者通常具有自私属性,即试图采取能够使自身性能指标最优的策略。策略设计的一个有效的工具是博弈论。在大多数已有的工作中,通常考虑所有的参与者的行为是同时的,即,考虑所有参与者处于平等的地位且同时决定各自的策略。然而,在很多实际场景中,某些个体可能比其他参与者掌握更多的信息,且能够优先采取行动。比如,在电力系统中,分布式能源站首先决定电价并主导市场,而消费者随后决定自己的能源消耗量。
斯塔克伯格博弈被广泛用来建模和研究这种分层决策问题。在斯塔克伯格博弈中,通常具有两个参与者:领导者和跟随者。领导者在考虑跟随者可能的合理响应的情况下优先决定自己的策略,而跟随者在观察到领导者的策略后,据此采取对自己最有利的策略。因此,斯塔克伯格博弈通常被描述为一个具有分层且耦合结构的双层优化问题。
在实际系统如电力系统、机器人系统中,博弈参与者的状态通常满足一个动态方程。为了研究方便,该动态方程可以考虑线性形式。当考虑博弈参与者的状态满足一个线性动态方程约束时,斯塔克伯格博弈问题的解满足一组耦合的非线性偏微分方程(PDEs),即Hamilton-Jacobi-Bellman(HJB)方程。众所周知,我们几乎不可能给出耦合PDEs的解析解,而且估计PDEs的解也是非常困难的。目前已有的方法大多依赖于精确的、完整的系统动力学方程的信息,而这一信息在实际应有中通常难以获取。
因此,如何合理的建模参与者之间的分层决策关系,如何充分利用系统与环境的交互,设计不依赖于完整的系统动力学模型信息的控制器是亟需解决的问题。
发明内容
有鉴于此,本发明提供了一种线性系统自适应最优控制方法,基于斯塔克伯格博弈,能够充分考虑实际应用中决策的参与者具有不平等地位的现象,以及解决实际系统的精确的动力学模型通常难以获取的难题。
本发明提供了一种线性系统自适应最优控制方法,包括:
构建具有领导者和跟随者的两输入线性系统;
设计所述两输入线性系统每个参与者的目标函数;
构建最优目标函数和最优控制策略满足的方程;
设计值迭代强化学习算法计算最优目标函数和最优控制策略;
利用最小二乘法,给出强化学习算法的一种实现;
基于强化学习算法的一种实现所确定的控制器实现自适应最优控制。
优选地,所述构建具有领导者和跟随者的两输入线性系统,包括:
构建具有两个输入的线性系统;
将决策的参与者建模为斯塔克伯格博弈中的领导者和跟随者。
优选地,所述设计所述两输入线性系统每个参与者的目标函数,包括:
基于领导者和跟随者的决策顺序,设计关于系统状态和控制输入的成本函数;
给出相应的值函数。
优选地,所述构建最优目标函数和最优控制策略满足的方程,包括:
构建跟随者最优目标函数和最优控制策略满足的积分贝尔曼方程;
构建领导者最优目标函数和最优控制策略满足的积分贝尔曼方程。
优选地,设计值迭代强化学习算法计算最优目标函数和最优控制策略,包括:
参数初始化;
基于领导者最优控制策略满足的积分贝尔曼方程,更新领导者值函数;
基于领导者最优控制策略和当前值函数,更新领导者控制策略;
基于跟随者最优控制策略满足的积分贝尔曼方程,更新跟随者值函数;
基于跟随者最优控制策略和当前值函数,更新跟随者控制策略;
如果相邻两步迭代所得值函数之差满足期望的阈值,则停止算法,否则返回基于领导者最优控制策略满足的积分贝尔曼方程,更新领导者值函数。
优选地,所述利用最小二乘法,给出强化学习算法的一种实现,包括:
根据当前迭代步骤的值函数,构建基于积分贝尔曼方程的残差方程;
利用最小二乘法最小化残差方程中的残差,得到值函数参数向量的更新率;
给出强化学习算法的一种实现。
优选地,所述给出强化学习算法的一种实现,包括:
参数初始化;
基于一组系统输入输出数据,更新领导者值函数的参数向量;
更新领导者控制策略;
基于一组系统输入输出数据,更新跟随者值函数的参数向量;
更新跟随者控制策略;
如果相邻两步迭代所得参数向量之差满足期望的阈值,则停止算法,否则返回基于一组系统输入输出数据,更新领导者值函数的参数向量。
一种线性系统自适应最优控制装置,包括:
第一构建模块,用于构建具有领导者和跟随者的两输入线性系统;
第一设计模块,用于设计所述两输入线性系统每个参与者的目标函数;
第二构建模块,用于构建最优目标函数和最优控制策略满足的方程;
第二设计模块,用于设计值迭代强化学习算法计算最优目标函数和最优控制策略;
给出模块,用于利用最小二乘法,给出强化学习算法的一种实现;
控制模块,用于基于强化学习算法的一种实现所确定的控制器实现自适应最优控制。
优选地,所述第一构建模块具体用于:
构建具有两个输入的线性系统;
将决策的参与者建模为斯塔克伯格博弈中的领导者和跟随者。
优选地,所述第一设计模块具体用于:
基于领导者和跟随者的决策顺序,设计关于系统状态和控制输入的成本函数;
给出相应的值函数。
优选地,所述第二构建模块具体用于:
构建跟随者最优目标函数和最优控制策略满足的积分贝尔曼方程;
构建领导者最优目标函数和最优控制策略满足的积分贝尔曼方程。
优选地,所述第二设计模块具体用于:
参数初始化;
基于领导者最优控制策略满足的积分贝尔曼方程,更新领导者值函数;
基于领导者最优控制策略和当前值函数,更新领导者控制策略;
基于跟随者最优控制策略满足的积分贝尔曼方程,更新跟随者值函数;
基于跟随者最优控制策略和当前值函数,更新跟随者控制策略;
如果相邻两步迭代所得值函数之差满足期望的阈值,则停止算法,否则返回基于领导者最优控制策略满足的积分贝尔曼方程,更新领导者值函数。
优选地,所述给出模块具体用于:
根据当前迭代步骤的值函数,构建基于积分贝尔曼方程的残差方程;
利用最小二乘法最小化残差方程中的残差,得到值函数参数向量的更新率;
给出强化学习算法的一种实现。
优选地,所述给出模块在执行给出强化学习算法的一种实现时,具体用于:
参数初始化;
基于一组系统输入输出数据,更新领导者值函数的参数向量;
更新领导者控制策略;
基于一组系统输入输出数据,更新跟随者值函数的参数向量;
更新跟随者控制策略;
如果相邻两步迭代所得参数向量之差满足期望的阈值,则停止算法,否则返回基于一组系统输入输出数据,更新领导者值函数的参数向量。
综上所述,本发明公开了一种线性系统自适应最优控制方法,当需要对线性系统进行自适应最优控制时,首先构建具有领导者和跟随者的两输入线性系统,然后设计两输入线性系统每个参与者的目标函数,构建最优目标函数和最优控制策略满足的方程,设计值迭代强化学习算法计算最优目标函数和最优控制策略;利用最小二乘法,给出强化学习算法的一种实现,基于强化学习算法的一种实现所确定的控制器实现自适应最优控制。本发明基于斯塔克伯格博弈,能够充分考虑实际应用中决策的参与者具有不平等地位的现象,以及解决实际系统的精确的动力学模型通常难以获取的难题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明公开的一种线性系统自适应最优控制方法实施例的流程图;
图2为本发明公开的一种领导者的值函数参数向量演化示意图;
图3为本发明公开的一种跟随者的值函数参数向量演化示意图;
图4为本发明公开的一种线性系统的状态演化示意图;
图5为本发明公开的一种线性系统自适应最优控制装置实施例的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,为本发明公开的一种线性系统自适应最优控制方法实施例的流程图,所述方法可以包括以下步骤:
S101、构建具有领导者和跟随者的两输入线性系统;
当需要对线性系统进行自适应最优控制时,首先构建具有领导者和跟随者的两输入线性系统。
具体的,首先构建具有两个输入的线性系统;
考虑能够建模成如下具有两个输入的一般线性系统:
其中,x∈Rn表示系统状态,u1,u2∈Rp表示系统控制输入,A∈Rn×n和B∈Rn×p表示系统矩阵。为了便于将线性系统的控制问题建模成博弈问题研究,本发明考虑上述系统控制中具有两个决策参与者,其策略分别为u1和u2。
然后,将决策的参与者建模为斯塔克伯格博弈中的领导者和跟随者。
根据决策的参与者的性质,将其分别建模为领导者和跟随者。领导者优先采取行动,并有能力预测另一参与者可能采取的行动;跟随者观察到领导者的行动后随之采取对自己最有利的动作。
S102、设计两输入线性系统每个参与者的目标函数;
具体的,首先考虑领导者和跟随者的决策顺序,设计关于系统状态和控制输入的成本函数:
其中,ri(x(t),u1(t),u2(t))=xT(t)Qix(t)+(ui(t)+θiuj(t))TRi(ui(t)+θiuj(t)),i,j=1,2,i≠j,t0表示初始时刻,Qi≥0,Ri>0,θi∈(0,1),是能观的。
然后,给出相应的值函数(即,目标函数),决策者i的值函数定义为:
Vi(x(t))=∫t ∞ri(x(τ),u1(τ),u2(τ))dτ
S103、构建最优目标函数和最优控制策略满足的方程;
具体的,首先构建跟随者最优目标函数和最优控制策略满足的方程;
对于任意给定的领导者策略u1,跟随者的最优响应策略为:
然后,构建领导者最优目标函数和最优控制策略满足的方程;
S104、设计值迭代强化学习算法计算最优目标函数和最优控制策略;
然后,设计值迭代强化学习算法计算步骤S103中推导的最优值函数和最优控制策略。
然后,更新领导者值函数:
然后,更新领导者控制策略:
然后,更新跟随者值函数:
然后,更新跟随者值控制策略:
S105、利用最小二乘法,给出强化学习算法的一种实现;
然后,利用最小二乘法,给出步骤S104中强化学习算法的一种实现。
具体的,首先构建基于积分贝尔曼方程的残差方程;为了便于表示,首先将用代替上述算法中的其中,为值函数权重向量,通过将中的元素按列排列得到,由x(t)的二次型得到,其排列顺序与中的元素对应。基于此,可以得到如下残差方程:
其中:
其中:
t1,…,tM为M个采样时刻。
然后,给出步骤S104中强化学习算法的一种实现;
然后,更新领导者的值函数参数向量:
将系统运行一段时间,采样M组系统数据(xi(tk),xi(tk+Δt),ui(tk),ui(tk+Δt)),i=1,2,k=1,…,M,Δt表示采样时间间隔,通过下式更新领导者权重:
然后,更新领导者控制策略:
然后,更新跟随者的值函数参数向量:
将系统运行一段时间,采样M组系统数据(xi(tk),xi(tk+Δt),ui(tk),ui(tk+Δt)),i=1,2,k=1,…,M,Δt表示采样时间间隔,通过下式更新跟随者权重:
然后,更新跟随者者控制策略:
S106、基于强化学习算法的一种实现所确定的控制器实现自适应最优控制。
最后,用步骤S105所确定的控制器实现自适应最优控制。
下面通过一个具体实施例对本发明的技术方案进一步说明:
考虑具有二阶动力学的地面移动机器人系统,其动力学为:
其中,s∈R表示机器人的位置,v∈R表示机器人的速度,u1∈R表示领导者的控制输入(控制策略),u2∈R表示跟随者的控制输入(控制策略)。
将机器人的速度和位置选为状态变量,即,x=[s,v]T,则上述二阶动力学系统可以写成如下具有两个输入的一般线性系统的形式:
性能指标中的参数为:
领导者和跟随者的值函数参数向量演化分别如图2和图3所示,系统的状态演化如图4所示。
综上所述,本发明考虑了实际应用中决策的参与者具有不平等地位和决策顺序有先后的现象,以及实际系统的精确的动力学模型通常难以获取的难题,通过充分利用系统的输入输出信息设计控制策略,能够在参与者具有不平等地位的情况下实现自适应最优控制。
如图5所示,为本发明公开的一种线性系统自适应最优控制装置实施例的结构示意图,所述装置可以包括:
第一构建模块501,用于构建具有领导者和跟随者的两输入线性系统;
第一设计模块502,用于设计所述两输入线性系统每个参与者的目标函数;
第二构建模块503,用于构建最优目标函数和最优控制策略满足的方程;
第二设计模块504,用于设计值迭代强化学习算法计算最优目标函数和最优控制策略;
给出模块505,用于利用最小二乘法,给出强化学习算法的一种实现;
控制模块506,用于基于强化学习算法的一种实现所确定的控制器实现自适应最优控制。
本实施例公开的线性系统自适应最优控制装置的工作原理与上述线性系统自适应最优控制方法的工作原理相同,在此不再赘述。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (14)
1.一种线性系统自适应最优控制方法,其特征在于,包括:
构建具有领导者和跟随者的两输入线性系统;
设计所述两输入线性系统每个参与者的目标函数;
构建最优目标函数和最优控制策略满足的方程;
设计值迭代强化学习算法计算最优目标函数和最优控制策略;
利用最小二乘法,给出强化学习算法的一种实现;
基于强化学习算法的一种实现所确定的控制器实现自适应最优控制。
2.根据权利要求1所述的方法,其特征在于,所述构建具有领导者和跟随者的两输入线性系统,包括:
构建具有两个输入的线性系统;
将决策的参与者建模为斯塔克伯格博弈中的领导者和跟随者。
3.根据权利要求2所述的方法,其特征在于,所述设计所述两输入线性系统每个参与者的目标函数,包括:
基于领导者和跟随者的决策顺序,设计关于系统状态和控制输入的成本函数;
给出相应的值函数。
4.根据权利要求3所述的方法,其特征在于,所述构建最优目标函数和最优控制策略满足的方程,包括:
构建跟随者最优目标函数和最优控制策略满足的积分贝尔曼方程;
构建领导者最优目标函数和最优控制策略满足的积分贝尔曼方程。
5.根据权利要求4所述的方法,其特征在于,设计值迭代强化学习算法计算最优目标函数和最优控制策略,包括:
参数初始化;
基于领导者最优控制策略满足的积分贝尔曼方程,更新领导者值函数;
基于领导者最优控制策略和当前值函数,更新领导者控制策略;
基于跟随者最优控制策略满足的积分贝尔曼方程,更新跟随者值函数;
基于跟随者最优控制策略和当前值函数,更新跟随者控制策略;
如果相邻两步迭代所得值函数之差满足期望的阈值,则停止算法,否则返回基于领导者最优控制策略满足的积分贝尔曼方程,更新领导者值函数。
6.根据权利要求5所述的方法,其特征在于,所述利用最小二乘法,给出强化学习算法的一种实现,包括:
根据当前迭代步骤的值函数,构建基于积分贝尔曼方程的残差方程;
利用最小二乘法最小化残差方程中的残差,得到值函数参数向量的更新率;
给出强化学习算法的一种实现。
7.根据权利要求6所述的方法,其特征在于,所述给出强化学习算法的一种实现,包括:
参数初始化;
基于一组系统输入输出数据,更新领导者值函数的参数向量;
更新领导者控制策略;
基于一组系统输入输出数据,更新跟随者值函数的参数向量;
更新跟随者控制策略;
如果相邻两步迭代所得参数向量之差满足期望的阈值,则停止算法,否则返回基于一组系统输入输出数据,更新领导者值函数的参数向量。
8.一种线性系统自适应最优控制装置,其特征在于,包括:
第一构建模块,用于构建具有领导者和跟随者的两输入线性系统;
第一设计模块,用于设计所述两输入线性系统每个参与者的目标函数;
第二构建模块,用于构建最优目标函数和最优控制策略满足的方程;
第二设计模块,用于设计值迭代强化学习算法计算最优目标函数和最优控制策略;
给出模块,用于利用最小二乘法,给出强化学习算法的一种实现;
控制模块,用于基于强化学习算法的一种实现所确定的控制器实现自适应最优控制。
9.根据权利要求8所述的装置,其特征在于,所述第一构建模块具体用于:
构建具有两个输入的线性系统;
将决策的参与者建模为斯塔克伯格博弈中的领导者和跟随者。
10.根据权利要求9所述的装置,其特征在于,所述第一设计模块具体用于:
基于领导者和跟随者的决策顺序,设计关于系统状态和控制输入的成本函数;
给出相应的值函数。
11.根据权利要求10所述的装置,其特征在于,所述第二构建模块具体用于:
构建跟随者最优目标函数和最优控制策略满足的积分贝尔曼方程;
构建领导者最优目标函数和最优控制策略满足的积分贝尔曼方程。
12.根据权利要求11所述的装置,其特征在于,所述第二设计模块具体用于:
参数初始化;
基于领导者最优控制策略满足的积分贝尔曼方程,更新领导者值函数;
基于领导者最优控制策略和当前值函数,更新领导者控制策略;
基于跟随者最优控制策略满足的积分贝尔曼方程,更新跟随者值函数;
基于跟随者最优控制策略和当前值函数,更新跟随者控制策略;
如果相邻两步迭代所得值函数之差满足期望的阈值,则停止算法,否则返回基于领导者最优控制策略满足的积分贝尔曼方程,更新领导者值函数。
13.根据权利要求12所述的装置,其特征在于,所述给出模块具体用于:
根据当前迭代步骤的值函数,构建基于积分贝尔曼方程的残差方程;
利用最小二乘法最小化残差方程中的残差,得到值函数参数向量的更新率;
给出强化学习算法的一种实现。
14.根据权利要求13所述的装置,其特征在于,所述给出模块在执行给出强化学习算法的一种实现时,具体用于:
参数初始化;
基于一组系统输入输出数据,更新领导者值函数的参数向量;
更新领导者控制策略;
基于一组系统输入输出数据,更新跟随者值函数的参数向量;
更新跟随者控制策略;
如果相邻两步迭代所得参数向量之差满足期望的阈值,则停止算法,否则返回基于一组系统输入输出数据,更新领导者值函数的参数向量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011078377.0A CN112149361B (zh) | 2020-10-10 | 一种线性系统自适应最优控制方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011078377.0A CN112149361B (zh) | 2020-10-10 | 一种线性系统自适应最优控制方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112149361A true CN112149361A (zh) | 2020-12-29 |
CN112149361B CN112149361B (zh) | 2024-05-17 |
Family
ID=
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112947078A (zh) * | 2021-02-03 | 2021-06-11 | 浙江工业大学 | 一种基于值迭代的伺服电机智能优化控制方法 |
CN113189879A (zh) * | 2021-05-10 | 2021-07-30 | 中国科学技术大学 | 控制策略的确定方法及装置、存储介质及电子设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013176784A1 (en) * | 2012-05-24 | 2013-11-28 | University Of Southern California | Optimal strategies in security games |
CN104834221A (zh) * | 2015-05-25 | 2015-08-12 | 中国科学院自动化研究所 | 一种基于可变误差的非线性系统自适应最优控制方法 |
CN106354010A (zh) * | 2016-09-29 | 2017-01-25 | 中国科学院自动化研究所 | 自适应最优控制方法及自适应最优控制系统 |
US20180011488A1 (en) * | 2016-07-08 | 2018-01-11 | Toyota Motor Engineering & Manufacturing North America, Inc. | Control policy learning and vehicle control method based on reinforcement learning without active exploration |
CN109375514A (zh) * | 2018-11-30 | 2019-02-22 | 沈阳航空航天大学 | 一种存在假数据注入攻击时的最优跟踪控制器设计方法 |
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013176784A1 (en) * | 2012-05-24 | 2013-11-28 | University Of Southern California | Optimal strategies in security games |
CN104834221A (zh) * | 2015-05-25 | 2015-08-12 | 中国科学院自动化研究所 | 一种基于可变误差的非线性系统自适应最优控制方法 |
US20180011488A1 (en) * | 2016-07-08 | 2018-01-11 | Toyota Motor Engineering & Manufacturing North America, Inc. | Control policy learning and vehicle control method based on reinforcement learning without active exploration |
CN106354010A (zh) * | 2016-09-29 | 2017-01-25 | 中国科学院自动化研究所 | 自适应最优控制方法及自适应最优控制系统 |
CN109375514A (zh) * | 2018-11-30 | 2019-02-22 | 沈阳航空航天大学 | 一种存在假数据注入攻击时的最优跟踪控制器设计方法 |
Non-Patent Citations (1)
Title |
---|
张洪宇;徐昕;张鹏程;刘春明;宋金泽;: "双轮驱动移动机器人的学习控制器设计方法", 计算机应用研究, no. 06, 15 June 2009 (2009-06-15) * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112947078A (zh) * | 2021-02-03 | 2021-06-11 | 浙江工业大学 | 一种基于值迭代的伺服电机智能优化控制方法 |
CN113189879A (zh) * | 2021-05-10 | 2021-07-30 | 中国科学技术大学 | 控制策略的确定方法及装置、存储介质及电子设备 |
CN113189879B (zh) * | 2021-05-10 | 2022-07-15 | 中国科学技术大学 | 控制策略的确定方法及装置、存储介质及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Bloembergen et al. | Evolutionary dynamics of multi-agent learning: A survey | |
Khodadadi et al. | An archive-based multi-objective arithmetic optimization algorithm for solving industrial engineering problems | |
Rafiq et al. | Neural network design for engineering applications | |
Mirahadi et al. | Simulation-based construction productivity forecast using neural-network-driven fuzzy reasoning | |
Zhang | Multi-objective simulation-optimization for earthmoving operations | |
Salamzadeh et al. | Entrepreneurial universities in Iran: a system dynamics model | |
CN112180730B (zh) | 一种多智能体系统分层最优一致性控制方法和装置 | |
Štula et al. | Continuously self-adjusting fuzzy cognitive map with semi-autonomous concepts | |
Raina et al. | Design strategy transfer in cognitively-inspired agents | |
Faia et al. | Dynamic fuzzy estimation of contracts historic information using an automatic clustering methodology | |
CN112149361A (zh) | 一种线性系统自适应最优控制方法和装置 | |
CN112149361B (zh) | 一种线性系统自适应最优控制方法和装置 | |
Shafipour Yourdshahi et al. | On-line estimators for ad-hoc task execution: learning types and parameters of teammates for effective teamwork | |
Motlagh et al. | Development of application-specific adjacency models using fuzzy cognitive map | |
Gilmer et al. | Recursive simulation to aid models of decisionmaking | |
KR102238424B1 (ko) | 빅데이터 기계학습을 이용한 시스템 모델링방법 | |
CN103763123A (zh) | 一种网络健康状态的评估方法和装置 | |
Chan et al. | Model predictive control of Hammerstein systems with multivariable nonlinearities | |
MacCalman et al. | Tradespace analysis for multiple performance measures | |
Gao et al. | Environmental protection of rural ecotourism using PSR and MDP models | |
Bellucci et al. | A Taylor series approach to the robust parameter design of computer simulations using kriging and radial basis function neural networks | |
Ruiz et al. | Decision making through simulation in public policy management field | |
CN116663417B (zh) | 一种虚拟地理环境角色建模方法 | |
Chen et al. | Differential game for a class of warfare dynamic systems with reinforcement based on Lanchester equation | |
Chen et al. | Building a Belief–Desire–Intention Agent for Modeling Neural Networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |