CN116859745B - 基于偏差评价机制的跳变系统无模型博弈控制的设计方法 - Google Patents

基于偏差评价机制的跳变系统无模型博弈控制的设计方法 Download PDF

Info

Publication number
CN116859745B
CN116859745B CN202310969752.8A CN202310969752A CN116859745B CN 116859745 B CN116859745 B CN 116859745B CN 202310969752 A CN202310969752 A CN 202310969752A CN 116859745 B CN116859745 B CN 116859745B
Authority
CN
China
Prior art keywords
model
mode
jump system
cost function
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310969752.8A
Other languages
English (en)
Other versions
CN116859745A (zh
Inventor
闻继伟
薛荟文
邹雨玲
赵顺毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangnan University
Original Assignee
Jiangnan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangnan University filed Critical Jiangnan University
Priority to CN202310969752.8A priority Critical patent/CN116859745B/zh
Publication of CN116859745A publication Critical patent/CN116859745A/zh
Application granted granted Critical
Publication of CN116859745B publication Critical patent/CN116859745B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明提供一种基于偏差评价机制的跳变系统无模型博弈控制的设计方法,涉及工程系统技术领域,该方法包括针对若干不同工作模态的实际系统建立Markov跳变系统模型,将Markov跳变系统的H控制问题转化为双人零和博弈问题,以获得在最坏情况下使代价函数最小化的控制器;基于Markov跳变系统模型,构造动作和模式相关的价值函数,设计偏差评价函数,以获得无模型博弈控制算法,实现H控制。本发明能够综合考虑实际跳变系统动力学模型未知和采样数据存在异常的情况,拓展了跳变系统的适用范围,突破了实际工程应用中模型无法精确获得的局限性。

Description

基于偏差评价机制的跳变系统无模型博弈控制的设计方法
技术领域
本发明涉及工程系统技术领域,尤其涉及一种基于偏差评价机制的跳变系统无模型博弈控制的设计方法。
背景技术
Markov跳变系统是混杂系统建模与控制研究中的一个新领域,最早是由Krasovskii和Lidskiid提出近年来受到了学者们的极大关注。它常以具有若干不同工作模态的实际系统建立模型,比如,太阳能锅炉系统、经济学系统、生化系统及网络控制系统等。其工作特点是系统运行过程中常会出现外界环境变化,控制器、执行器故障以及通信时延、数据丢包等情况,这些随机因素常会引起系统结构或参数发生切换(或跳变)。它们的共性在于均可从中抽象出连续时间演化和离散事件驱动两类动态机制。以太阳能锅炉系统或者熔盐储热系统为例,反光镜将太阳光反射到高塔上,高塔上的锅炉根据接收到的太阳能自动调节水流量的大小。在这个控制系统中,可以将不同的天气状况,如晴天、雨天、阴天、多云等视为不同的工作模态,它们是离散驱动事件;而每一个工作模态下太阳能的接收和水流则是连续动态变量;不同的模态之间可近似看成按照无后效性的随机过程—Markov过程切换(或跳变),这就是一个典型Markov跳变系统。又例如网络控制系统,由于通信网络的存在使传感器到控制器以及控制器到执行器的传输通道存在网络时延及数据丢包,时延和丢包往往具有随机特性,通常可以用Markov链对其建模。
Markov跳变系统的动力学行为包含两种形式:一种是离散变化的模态,由一组在有限整数集中取值的Markov链描述;另一种是连续变化的状态,由每一模态下的微分(或差分)方程描述。从这个意义上说,Markov切换系统属于混杂系统的范畴,并且其特殊性在于可以将离散事件和连续变量两种不同的动态统一用随机微分方程或差分方程表示,这就为人们运用现代控制理论中的状态空间方法研究跳变系统的分析与综合问题提供了思路。此外,Markov跳变系统与切换控制系统也有很大关联,它的每一个工作模态都可以相应地视为大系统的一个子系统。两者区别在于,Markov跳变系统的切换律不是人为设计的、依赖于状态或其它系统参数的主动控制律,而是遵循一定统计学规律的随机过程。
近年来,Markov跳变系统的控制问题一直是研究的热点之一。随着科学技术的不断发展,博弈论与控制论产生交融,诸多控制问题可以引入博弈思想来解决,典型地,博弈控制为实现H控制提供了新的设计思路。
然而,随着应用场景的日益复杂,各种不确定因素越来越多,精确的系统模型很难甚至不可能得到,传统基于矩阵不等式和求解黎卡提方程的方法已不适用。例如,直流电机装置在实际操作运行时,由于各种不可测因素的影响,无法建立系统的准确模型,故系统的动力学信息往往是未知的。因此,利用无模型的博弈控制方法,解决Markov跳变系统的H控制问题,具有重要的必要性和应用价值。
发明内容
为此,本发明实施例提供了一种基于偏差评价机制的跳变系统无模型博弈控制的设计方法,用于解决现有技术中由于各种不确定因素越来越多,导致很难获得精确的系统模型的问题。
为了解决上述问题,本发明实施例提供一种基于偏差评价机制的跳变系统无模型博弈控制的设计方法,所述方法包括:
S1:针对若干不同工作模态的实际系统建立Markov跳变系统模型,将Markov跳变系统的H控制问题转化为双人零和博弈问题,以获得在最坏情况下使代价函数最小化的控制器;所述Markov跳变系统模型的函数表达式为:
其中,表示k时刻系统的状态,/>表示k时刻系统的控制输入,/>表示k时刻一个能量有界的干扰输入,θ(k)表示k时刻Markov跳变系统的模态,该模态在一个有限集合/> 中取值,θ0表示Markov跳变系统的初始模态,马尔可夫链的转移矩阵记为Π=[πij],Aθ(k)表示模态θ(k)下的第一系统矩阵,Bθ(k)表示模态θ(k)下的第二系统矩阵,Eθ(k)表示模态θ(k)下的第三系统矩阵;
S2:基于Markov跳变系统模型,构造动作和模式相关的价值函数,以获得无模型的策略;
S3:基于动作和模式相关的价值函数,设计偏差评价函数;
S4:设计无模型博弈控制算法,实现H控制。
优选地,所述将Markov跳变系统的H控制问题转化为双人零和博弈问题,以获得在最坏情况下使代价函数最小化的控制器的方法为:
将Markov跳变系统的H控制问题转化为双人零和博弈问题,将u(k)看成是一个博弈者,ω(k)看成是另一个虚拟的博弈者,两者相互博弈,以获得在最坏情况下使代价函数最小化的控制器。
优选地,所述代价函数定义为:
因此最优代价函数定义为:
其中,a表示时间变量,表示定义为,Rθ(a)表示给定的、依赖于模态的加权矩阵,μθ(a)表示对应模态下给定的干扰抑制水平。
优选地,基于Markov跳变系统模型,构造基于动作和模式相关的价值函数,以获得无模型的策略的方法为:
S21:基于Markov跳变系统模型,构造动作和模式相关的价值函数并将其整理成用数据和待估计参数矩阵表达的形式,包括:
(1)定义动作和模式相关的价值函数为:
其中,z(k)=[xT(k)uT(k)ωT(k)]T 表示定义为,/>表示待估计参数矩阵;
(2)将系统的动力学信息隐藏在待估计参数矩阵中,记为:
其中, 表示定义为,Pj表示模态j下的值函数矩阵,Ei表示模态i下的第三系统矩阵,I表示单位矩阵;
S22:基于构造的动作和模式相关的价值函数,给出无模型最优策略的计算方法,包括:
令动作和模式相关的价值函数中的和/>则最优动作/>和/>用/>表示:
优选地,基于动作和模式相关的价值函数,设计偏差评价函数的方法为:
S31:将动作和模式相关的价值函数整理成可迭代计算形式;
(1)定义动作和模式相关的价值函数的迭代计算式为:
(2)将上述迭代计算式重新写为:
其中,
并且,l=nx+nu+nω
(3)进一步整理成如下形式:
其中,M1+M2+…+MN=M,M表示每个窗口中的数据长度,M1,M2,…,MN表示每个模态下的数据数目;
S32:将收集到的数据按照模态整理,分别使用递推最小二乘来学习价值函数中的待估计参数矩阵,包括:
(1)将收集到的数据按照相同模态整理成以下形式:
Υmod=[ξ(mod1) ξ(mod2) … ξ(modq) … ξ(modMmod)]T
其中,mod表示模态;
(2)将收集的数据按照模态进行编号,得到待估计参数矩阵的最小二乘解为:
整理成如下递推最小二乘的形式:
η(mod0)=106I
其中,η(modq)表示与模态相关的协方差矩阵,I表示单位矩阵;
S33:引入偏差评价函数,通过该函数的大小来判断每个收集数据对最小二乘估计的影响,从而找出异常值,剔除异常数据点。
优选地,所述偏差评价函数定义为:
其中,test表示测试之意,用于表述和测试点有关的数据。
优选地,所述设计无模型博弈控制算法,具体包括:
S41:初始化参数Hi 0,Li 0和Ki 0;令k=0,n=0;初始化协方差矩阵η(0)=106I;
S42:从m=1到M对以下操作做循环:
其中e1和e2是激励信号;
将un(k)和ωn(k)作用于系统,生成状态x(k+1);
构造和ξ(k);
k=k+1;
S43:将收集到的数据按照模态整理并在每个模态下分别用递推最小二乘估计参数矩阵
S44:依次将每一个数据作为测试点,用偏差评价函数计算其他数据对该测试点的影响;
S45:找出异常数据并移除;
S46:重新用递推最小二乘估计
S47:根据得到Hi n+1
S48:直到其中ε是一个很小的正数,否则继续执行步骤S42。
优选地,所述无模型博弈控制算法的更新策略为:
本发明实施例还提供了一种基于偏差评价机制的跳变系统无模型博弈控制装置,所述装置包括:
Markov跳变系统模型建立模块,用于针对若干不同工作模态的实际系统建立Markov跳变系统模型,将Markov跳变系统的H控制问题转化为双人零和博弈问题,以获得在最坏情况下使代价函数最小化的控制器;所述Markov跳变系统模型的函数表达式为:
其中,表示k时刻系统的状态,/>表示k时刻系统的控制输入,/>表示k时刻一个能量有界的干扰输入,θ(k)表示k时刻Markov跳变系统的模态,该模态在一个有限集合/> 中取值,θ0表示Markov跳变系统的初始模态,马尔可夫链的转移矩阵记为Π=[πij],Aθ(k)表示模态θ(k)下的第一系统矩阵,Bθ(k)表示模态θ(k)下的第二系统矩阵,Eθ(k)表示模态θ(k)下的第三系统矩阵;
价值函数构造模块,用于基于Markov跳变系统模型,构造动作和模式相关的价值函数,以获得无模型的策略;
偏差评价函数设计模块,用于基于动作和模式相关的价值函数,设计偏差评价函数;
无模型博弈控制算法设计模块,用于设计无模型博弈控制算法,实现H控制。
本发明实施例还提供了一种电子设备,所述电子设备包括处理器、存储器和总线系统,所述处理器和存储器通过该总线系统相连,所述存储器用于存储指令,所述处理器用于执行存储器存储的指令,以实现上述所述的基于偏差评价机制的跳变系统无模型博弈控制的设计方法。
从以上技术方案可以看出,本发明申请具有以下优点:
(1)本发明设计的博弈控制方法是无模型的,无需系统的动力学信息,根据这一特点,该方法可以适用于实际工程中无法准确获取系统模型的情况,具有更为广泛的应用前景。
(2)本发明考虑实际采样数据存在异常点的情况,通过引入偏差评价机制,可以有效排除异常数据带来的影响,具有更强的学习能力和更广的适用范围。
(3)本发明可以很好地处理多模态下Markov跳变系统的H控制问题。
附图说明
为了更清楚地说明本发明实施案例或现有技术中的技术方案,下边将对实施例中所需要使用的附图做简单说明,通过参考附图会更清楚的理解本发明的特征和优点,附图是示意性的而不应该理解为对本发明进行任何限制,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,可以根据这些附图获得其他的附图。其中:
图1为根据实施例中提供的一种基于偏差评价机制的跳变系统无模型博弈控制的设计方法的流程图;
图2为实施例中一种直流电机装置电路图;
图3为实施例中状态轨迹图;
图4为实施例中模式依赖参数估计的收敛性图;
图5为根据实施例中提供的一种基于偏差评价机制的跳变系统无模型博弈控制的设计装置的框图。
具体实施方式
为使本发明实施例的目的、技术方案与优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
如图1所示,本发明实施例提出一种基于偏差评价机制的跳变系统无模型博弈控制的设计方法,该方法包括:
S1:针对若干不同工作模态的实际系统建立Markov跳变系统模型,将Markov跳变系统的H控制问题转化为双人零和博弈问题,以获得在最坏情况下使代价函数最小化的控制器;所述Markov跳变系统模型的函数表达式为:
其中,表示k时刻系统的状态,/>表示k时刻系统的控制输入,/>表示k时刻一个能量有界的干扰输入,θ(k)表示k时刻Markov跳变系统的模态,该模态在一个有限集合/> 中取值,θ0表示Markov跳变系统的初始模态,马尔可夫链的转移矩阵记为Π=[πij],Aθ(k)表示模态θ(k)下的第一系统矩阵,Bθ(k)表示模态θ(k)下的第二系统矩阵,Eθ(k)表示模态θ(k)下的第三系统矩阵;
S2:基于Markov跳变系统模型,构造动作和模式相关的价值函数,以获得无模型的策略;
S3:基于动作和模式相关的价值函数,设计偏差评价函数;
S4:设计无模型博弈控制算法,实现H控制。
本发明提供了一种基于偏差评价机制的跳变系统无模型博弈控制的设计方法,本发明从博弈思想的角度解决了跳变系统模型未知情况下的H控制问题,首先将控制输入和干扰输入看成是两个博弈者,两者相互博弈通过在最坏干扰情况下,最小化代价函数以获得最优控制策略;其次构造动作和模式相关的价值函数,以获得无模型的策略;然后设计偏差评价函数,评价各数据对模型的影响,以剔除异常数据点;最后设计无模型博弈控制算法,实现H控制。本发明能够综合考虑实际跳变系统动力学模型未知和采样数据存在异常的情况,拓展了跳变系统的适用范围,突破了实际工程应用中模型无法精确获得的局限性。
进一步地,在步骤S1中,针对若干不同工作模态的实际系统建立Markov跳变系统模型,Markov跳变系统模型的函数表达式为:
其中,表示k时刻系统的状态,/>表示k时刻系统的控制输入,/>表示k时刻一个能量有界的干扰输入,θ(k)表示k时刻Markov跳变系统的模态,该模态在一个有限集合/> 中取值,θ0表示Markov跳变系统的初始模态,马尔可夫链的转移矩阵记为Π=[πij],Aθ(k)表示模态θ(k)下的第一系统矩阵,Bθ(k)表示模态θ(k)下的第二系统矩阵,Eθ(k)表示模态θ(k)下的第三系统矩阵。
从博弈论的角度,将Markov跳变系统的H控制问题转化为双人零和博弈问题,将u(k)看成是一个博弈者,ω(k)看成是另一个虚拟的博弈者,两者相互博弈,以获得在最坏情况下使代价函数最小化的控制器。代价函数定义为:
因此最优代价函数定义为:
其中,a表示时间变量,表示定义为,Rθ(a)表示给定的、依赖于模态的加权矩阵,μθ(a)表示对应模态下给定的干扰抑制水平。
进一步地,在步骤S2中,基于Markov跳变系统模型,构造动作和模式相关的价值函数,以获得无模型的策略的方法为:
S21:基于Markov跳变系统模型,构造动作和模式相关的价值函数并将其整理成用数据和待估计参数矩阵表达的形式,包括:
(1)定义动作和模式相关的价值函数为:
其中,z(k)=[xT(k)uT(k)ωT(k)]T 表示定义为,/>表示待估计参数矩阵;
(2)将系统的动力学信息隐藏在待估计参数矩阵中,记为:
其中, 表示定义为,Pj表示模态j下的值函数矩阵,Ei表示模态i下的第三系统矩阵,I表示单位矩阵;
S22:基于构造的动作和模式相关的价值函数,给出无模型最优策略的计算方法,包括:
令动作和模式相关的价值函数中的和/>则最优动作/>和/>用/>表示:
由于系统的动力学信息被隐藏在动作和模式相关的价值函数的待估计参数矩阵中,故得到的最优策略是无模型策略。
进一步地,在步骤S3中,基于动作和模式相关的价值函数,设计偏差评价函数的方法为:
S31:将动作和模式相关的价值函数整理成可迭代计算形式,包括:
(1)定义动作和模式相关的价值函数的迭代计算式为:
(2)将上述迭代计算式重新写为:
其中,
并且,l=nx+nu+nω
(3)进一步整理成如下形式:
其中,M1+M2+…+MN=M,M表示每个窗口中的数据长度,M1,M2,…,MN表示每个模态下的数据数目。
S32:将收集到的数据按照模态整理,分别使用递推最小二乘来学习价值函数中的待估计参数矩阵,包括:
(1)将收集到的数据按照相同模态整理成以下形式:
Υmod=[ξ(mod1) ξ(mod2) … ξ(modq) … ξ(modMmod)]T
其中,mod表示模态。
(2)将收集的数据按照模态进行编号,例如:时间步数为10的数据是模态3序列中的第二个数据,将其记为并且/>表示模态3序列中的最后一个数据,得到待估计参数矩阵的最小二乘解为:
整理成如下递推最小二乘的形式:
η(mod0)=106I
其中,η(modq)表示与模态相关的协方差矩阵,I表示单位矩阵。
S33:由于异常值的干扰,搜索最小二乘解非常困难,甚至不可能。为解决这个问题,引入偏差评价函数,通过该函数的大小来判断每个收集数据对最小二乘估计的影响,从而找出异常值,剔除异常数据点。
进一步地,在步骤S4中,基于上述步骤,设计无模型博弈控制算法,其具体算法流程如下表1所示:
表1
实施例二
为了更好的阐述本发明的技术方案,下面以一个直流电动机装置为例,验证本发明所提供的基于偏差评价机制的跳变系统无模型博弈控制的设计方法的优点及其实用性。
如图2所示,v(t)表示负载的转速,Vc(t)表示施加在直流电机上的电压,即控制输入,T(t)表示直流电机的转矩,Vm(t)表示直流电机的反电动势。直流电动机装置在正常、低功率和中功率三种不同的工作模式下运行,并根据齐次马尔可夫链编程使这些切换模式发生。
具体地,直流电机的扭力T(t)与电流i(t)成正比:
T(t)=Kmi(t)
其中,Km表示电机转矩常数。
直流电机的反电动势与转速成反比:
Vm(t)=Kbv(t)
其中,Kb表示电动势常数。
根据牛顿第二定律和基尔霍夫定律可得:
其中,Kf表示电机粘性摩擦常数,J表示转子的转动惯量。
在这个装置中,我们的目标是通过改变施加在直流电机上的电压Vc(t)来控制负载的转速v(t)。通过相关计算和离散化处理,直流电机装置可以建模为以下离散Markov跳变线性系统:
x(k+1)=Aix(k)+Biu(k)+Eiω(k)
其中
此直流电机装置的参数矩阵是未知的,但是我们能够通过测量装置实时获得直流电机的转速与直流电机两端电流。在实验过程中我们利用表2中的直流电机参数生成实际获得的v(k),i(k)。
表2
最后根据本发明提出的基于偏差评价机制的跳变系统无模型博弈控制的设计方法,设计无模型博弈控制算法。通过改变施加在直流电机上的电压,使直流电机的转速稳定在设定值,得到了如图3-4所示的仿真曲线。由图3-4可以看出,算法学习过程在第2400时间步终止,通过控制施加在直流电机上的电压,电机转速能很快收敛,停止运行。因此,所述基于偏差评价机制的跳变系统无模型博弈控制的设计方法具有较好的控制效果。
实施例三
如图5所示,本发明提供一种基于偏差评价机制的跳变系统无模型博弈控制的设计方法装置,该装置包括:
Markov跳变系统模型建立模块10,用于针对若干不同工作模态的实际系统建立Markov跳变系统模型,将Markov跳变系统的H控制问题转化为双人零和博弈问题,以获得在最坏情况下使代价函数最小化的控制器;所述Markov跳变系统模型的函数表达式为:
其中,表示k时刻系统的状态,/>表示k时刻系统的控制输入,/>表示k时刻一个能量有界的干扰输入,θ(k)表示k时刻Markov跳变系统的模态,该模态在一个有限集合/> 中取值,θ0表示Markov跳变系统的初始模态,马尔可夫链的转移矩阵记为Π=[πij],Aθ(k)表示模态θ(k)下的第一系统矩阵,Bθ(k)表示模态θ(k)下的第二系统矩阵,Eθ(k)表示模态θ(k)下的第三系统矩阵;
价值函数构造模块20,用于基于Markov跳变系统模型,构造动作和模式相关的价值函数,以获得无模型的策略;
偏差评价函数设计模块30,用于基于动作和模式相关的价值函数,设计偏差评价函数;
无模型博弈控制算法设计模块40,用于设计无模型博弈控制算法,实现H控制。
本实施例的一种基于偏差评价机制的跳变系统无模型博弈控制的设计装置,用于实现前述的基于偏差评价机制的跳变系统无模型博弈控制的设计方法,因此基于偏差评价机制的跳变系统无模型博弈控制的设计装置中的具体实施方式可见前文基于偏差评价机制的跳变系统无模型博弈控制的设计方法的实施例部分,例如,Markov跳变系统模型建立模块10,价值函数构造模块20,偏差评价函数设计模块30,无模型博弈控制算法设计模块40,分别用于实现上述基于偏差评价机制的跳变系统无模型博弈控制的设计方法中步骤S1,S2,S3,S4,所以,其具体实施方式可以参照相应的各个部分实施例的描述,为了避免冗余,在此不再赘述。
本发明实施例还提供了一种电子设备,所述电子设备包括处理器、存储器和总线系统,所述处理器和存储器通过该总线系统相连,所述存储器用于存储指令,所述处理器用于执行存储器存储的指令,以实现上述所述的基于偏差评价机制的跳变系统无模型博弈控制的设计方法。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,上述实施例仅仅是为清楚地说明所作的举例,并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims (5)

1.一种基于偏差评价机制的跳变系统无模型博弈控制的设计方法,其特征在于,包括:
S1:针对若干不同工作模态的实际系统建立Markov跳变系统模型,将Markov跳变系统的H控制问题转化为双人零和博弈问题,以获得在最坏情况下使代价函数最小化的控制器;所述Markov跳变系统模型的函数表达式为:
其中,表示k时刻系统的状态,/>表示k时刻系统的控制输入,/>表示k时刻一个能量有界的干扰输入,θ(k)表示k时刻Markov跳变系统的模态,该模态在一个有限集合/> 中取值,θ0表示Markov跳变系统的初始模态,马尔可夫链的转移矩阵记为Π=[πij],Aθ(k)表示模态θ(k)下的第一系统矩阵,Bθ(k)表示模态θ(k)下的第二系统矩阵,Eθ(k)表示模态θ(k)下的第三系统矩阵;
S2:基于Markov跳变系统模型,构造动作和模式相关的价值函数,以获得无模型的策略,具体包括:
S21:基于Markov跳变系统模型,构造动作和模式相关的价值函数并将其整理成用数据和待估计参数矩阵表达的形式,包括:
(1)定义动作和模式相关的价值函数为:
其中,z(k)=[xT(k)uT(k)ωT(k)]T 表示定义为,/>表示待估计参数矩阵;
(2)将系统的动力学信息隐藏在待估计参数矩阵中,记为:
其中, 表示定义为,Pj表示模态j下的值函数矩阵,Ei表示模态i下的第三系统矩阵,I表示单位矩阵;
S22:基于构造的动作和模式相关的价值函数,给出无模型最优策略的计算方法,包括:
令动作和模式相关的价值函数中的和/>则最优动作/>和/>用/>表示:
S3:基于动作和模式相关的价值函数,设计偏差评价函数,具体包括:
S31:将动作和模式相关的价值函数整理成可迭代计算形式,包括:
(1)定义动作和模式相关的价值函数的迭代计算式为:
(2)将上述迭代计算式重新写为:
其中,
并且,l=nx+nu+nω
(3)进一步整理成如下形式:
其中,M1+M2+…+MN=M,M表示每个窗口中的数据长度,M1,M2,…,MN表示每个模态下的数据数目;
S32:将收集到的数据按照模态整理,分别使用递推最小二乘来学习价值函数中的待估计参数矩阵,包括:
(1)将收集到的数据按照相同模态整理成以下形式:
Υmod=[ξ(mod1) ξ(mod2) … ξ(modq) … ξ(mmodMmod)]T
其中,mod表示模态;
(2)将收集的数据按照模态进行编号,得到待估计参数矩阵的最小二乘解为:
整理成如下递推最小二乘的形式:
η(mod0)=106I
其中,η(modq)表示与模态相关的协方差矩阵,I表示单位矩阵;
S33:引入偏差评价函数,通过该函数的大小来判断每个收集数据对最小二乘估计的影响,从而找出异常值,剔除异常数据点;
其中,所述偏差评价函数定义为:
其中,test表示测试之意,用于表述和测试点有关的数据;
S4:设计无模型博弈控制算法,实现H控制,具体包括:
S41:初始化参数Hi 0,Li 0和Ki 0;令k=0,n=0;初始化协方差矩阵η(0)=106I;
S42:从m=1到M对以下操作做循环:
其中e1和e2是激励信号;
将un(k)和ωn(k)作用于系统,生成状态x(k+1);
构造和ξ(k);
k=k+1;
S43:将收集到的数据按照模态整理并在每个模态下分别用递推最小二乘估计参数矩阵
S44:依次将每一个数据作为测试点,用偏差评价函数计算其他数据对该测试点的影响;
S45:找出异常数据并移除;
S46:重新用递推最小二乘估计
S47:根据得到Hi n+1
S48:直到其中ε是一个很小的正数,否则继续执行步骤S42;
其中,所述无模型博弈控制算法的更新策略为:
2.根据权利要求1所述的基于偏差评价机制的跳变系统无模型博弈控制的设计方法,其特征在于,所述将Markov跳变系统的H控制问题转化为双人零和博弈问题,以获得在最坏情况下使代价函数最小化的控制器的方法为:
将Markov跳变系统的H控制问题转化为双人零和博弈问题,将u(k)看成是一个博弈者,ω(k)看成是另一个虚拟的博弈者,两者相互博弈,以获得在最坏情况下使代价函数最小化的控制器。
3.根据权利要求2所述的基于偏差评价机制的跳变系统无模型博弈控制的设计方法,其特征在于,所述代价函数定义为:
因此最优代价函数定义为:
其中,a表示时间变量,表示定义为,Rθ(a)表示给定的、依赖于模态的加权矩阵,μθ(a)表示对应模态下给定的干扰抑制水平。
4.一种基于偏差评价机制的跳变系统无模型博弈控制的设计装置,其特征在于,所述装置用于实现权利要求1至3任意一项所述的基于偏差评价机制的跳变系统无模型博弈控制的设计方法,包括:
Markov跳变系统模型建立模块,用于针对若干不同工作模态的实际系统建立Markov跳变系统模型,将Markov跳变系统的H控制问题转化为双人零和博弈问题,以获得在最坏情况下使代价函数最小化的控制器;所述Markov跳变系统模型的函数表达式为:
其中,表示k时刻系统的状态,/>表示k时刻系统的控制输入,/>表示k时刻一个能量有界的干扰输入,θ(k)表示k时刻Markov跳变系统的模态,该模态在一个有限集合/> 中取值,θ0表示Markov跳变系统的初始模态,马尔可夫链的转移矩阵记为Π=[πij],Aθ(k)表示模态θ(k)下的第一系统矩阵,Bθ(k)表示模态θ(k)下的第二系统矩阵,Eθ(k)表示模态θ(k)下的第三系统矩阵;
价值函数构造模块,用于基于Markov跳变系统模型,构造动作和模式相关的价值函数,以获得无模型的策略;
偏差评价函数设计模块,用于基于动作和模式相关的价值函数,设计偏差评价函数;
无模型博弈控制算法设计模块,用于设计无模型博弈控制算法,实现H控制。
5.一种电子设备,其特征在于,所述电子设备包括处理器、存储器和总线系统,所述处理器和存储器通过该总线系统相连,所述存储器用于存储指令,所述处理器用于执行存储器存储的指令,以实现权利要求1至3任意一项所述的基于偏差评价机制的跳变系统无模型博弈控制的设计方法。
CN202310969752.8A 2023-08-03 2023-08-03 基于偏差评价机制的跳变系统无模型博弈控制的设计方法 Active CN116859745B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310969752.8A CN116859745B (zh) 2023-08-03 2023-08-03 基于偏差评价机制的跳变系统无模型博弈控制的设计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310969752.8A CN116859745B (zh) 2023-08-03 2023-08-03 基于偏差评价机制的跳变系统无模型博弈控制的设计方法

Publications (2)

Publication Number Publication Date
CN116859745A CN116859745A (zh) 2023-10-10
CN116859745B true CN116859745B (zh) 2024-05-31

Family

ID=88226908

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310969752.8A Active CN116859745B (zh) 2023-08-03 2023-08-03 基于偏差评价机制的跳变系统无模型博弈控制的设计方法

Country Status (1)

Country Link
CN (1) CN116859745B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008287344A (ja) * 2007-05-15 2008-11-27 Kobe Steel Ltd モデルパラメータ推定演算装置及び方法、モデルパラメータ推定演算処理プログラム並びにそれを記録した記録媒体
CN104238363A (zh) * 2014-09-23 2014-12-24 江南大学 多模态混杂系统的暂态性能控制方法
CN107313898A (zh) * 2017-08-15 2017-11-03 华北电力大学 基于Markov跳变规律的风力发电系统控制的方法
CN110099045A (zh) * 2019-04-08 2019-08-06 中国人民解放军战略支援部队信息工程大学 基于定性微分博弈和演化博弈的网络安全威胁预警方法及装置
CN111367175A (zh) * 2020-03-17 2020-07-03 江南大学 一种未知转移概率跳变系统的邻态偏差智能控制方法
CN111509737A (zh) * 2020-05-21 2020-08-07 南京邮电大学 一种DoS攻击下基于马尔可夫跳变模型的多机电力系统负荷频率控制系统的安全控制方法
CN111722531A (zh) * 2020-05-12 2020-09-29 天津大学 一种切换线性系统在线无模型最优控制方法
CN113934224A (zh) * 2021-10-19 2022-01-14 西北工业大学 一种基于异构博弈方法的无人机弹性策略设计方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7404723B2 (ja) * 2019-09-09 2023-12-26 ブラザー工業株式会社 制御方法及びコンピュータプログラム

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008287344A (ja) * 2007-05-15 2008-11-27 Kobe Steel Ltd モデルパラメータ推定演算装置及び方法、モデルパラメータ推定演算処理プログラム並びにそれを記録した記録媒体
CN104238363A (zh) * 2014-09-23 2014-12-24 江南大学 多模态混杂系统的暂态性能控制方法
CN107313898A (zh) * 2017-08-15 2017-11-03 华北电力大学 基于Markov跳变规律的风力发电系统控制的方法
CN110099045A (zh) * 2019-04-08 2019-08-06 中国人民解放军战略支援部队信息工程大学 基于定性微分博弈和演化博弈的网络安全威胁预警方法及装置
CN111367175A (zh) * 2020-03-17 2020-07-03 江南大学 一种未知转移概率跳变系统的邻态偏差智能控制方法
CN111722531A (zh) * 2020-05-12 2020-09-29 天津大学 一种切换线性系统在线无模型最优控制方法
CN111509737A (zh) * 2020-05-21 2020-08-07 南京邮电大学 一种DoS攻击下基于马尔可夫跳变模型的多机电力系统负荷频率控制系统的安全控制方法
CN113934224A (zh) * 2021-10-19 2022-01-14 西北工业大学 一种基于异构博弈方法的无人机弹性策略设计方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Markov 跳变系统MVF滤波器设计;闻继伟;《系统工程》;20090630;第27卷(第6期);第99-105页 *

Also Published As

Publication number Publication date
CN116859745A (zh) 2023-10-10

Similar Documents

Publication Publication Date Title
Misyris et al. Physics-informed neural networks for power systems
Barlas et al. Model predictive control for wind turbines with distributed active flaps: incorporating inflow signals and actuator constraints
CN112748665B (zh) 基于模糊卡尔曼滤波的氢燃料电池迭代控制方法及装置
CN115017787A (zh) 基于智能算法的风电场电压穿越特性等值建模方法及系统
Chow et al. A real-time learning control approach for nonlinear continuous-time system using recurrent neural networks
CN118365099B (zh) 一种多agv调度方法、装置、设备及存储介质
Liu et al. Coordination of a flywheel energy storage matrix system: An external model approach
CN116859745B (zh) 基于偏差评价机制的跳变系统无模型博弈控制的设计方法
CN111310384B (zh) 一种风场协同控制方法、终端及计算机可读存储介质
CN108983608A (zh) 丢包及转移概率部分未知的变采样ncs控制器设计方法
CN115016286B (zh) 非线性工业系统数据驱动强化学习鲁棒控制方法
Blood et al. A Kalman filter approach to quasi-static state estimation in electric power systems
CN111241749A (zh) 一种基于储备池计算的永磁同步电动机混沌预测方法
Contardo et al. Learning states representations in pomdp
CN115630316A (zh) 基于改进长短期记忆网络的超短期风速预测方法
CN115664924A (zh) 面向社会资产参与电网互动的内生安全感知资源管理方法
CN115118477A (zh) 一种基于深度强化学习的智能电网状态恢复方法及系统
Angel et al. Hardware in the loop experimental validation of PID controllers tuned by genetic algorithms
Wang et al. Ensemble Learning Model of Power System Transient Stability Assessment Based on Bayesian Model Averaging Method
CN115800362B (zh) 用于确定风电场仿真参数的方法、装置及处理器
Angel et al. Metaheuristic Tuning and Practical Implementation of a PID Controller Employing Genetic Algorithms
Mostafa Battery total capacity estimation based on the sunflower algorithm
CN115293334B (zh) 基于模型的高样本率深度强化学习的无人设备控制方法
CN118192236B (zh) 基于模型预测控制的车辆控制方法及装置
CN115360772B (zh) 电力系统有功安全校正控制方法、系统、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant