CN103217899A - 基于数据的q函数自适应动态规划方法 - Google Patents

基于数据的q函数自适应动态规划方法 Download PDF

Info

Publication number
CN103217899A
CN103217899A CN201310036976XA CN201310036976A CN103217899A CN 103217899 A CN103217899 A CN 103217899A CN 201310036976X A CN201310036976X A CN 201310036976XA CN 201310036976 A CN201310036976 A CN 201310036976A CN 103217899 A CN103217899 A CN 103217899A
Authority
CN
China
Prior art keywords
neural network
control strategy
time
weight
current
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310036976XA
Other languages
English (en)
Other versions
CN103217899B (zh
Inventor
赵冬斌
朱圆恒
刘德荣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN201310036976.XA priority Critical patent/CN103217899B/zh
Publication of CN103217899A publication Critical patent/CN103217899A/zh
Application granted granted Critical
Publication of CN103217899B publication Critical patent/CN103217899B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明提出一种基于数据的Q函数自适应动态规划方法解决最优控制问题。所述方法主要包括:步骤1,初始化稳定的控制策略;步骤2,用已有的控制策略初始化控制器(actor)、评价器(critic)神经网络的权重;步骤3,根据当前控制策略和当前时刻系统状态,生成被控制系统的控制动作并施加到被控制对象上,观测下一时刻的系统状态;步骤4,调整控制器、评价器神经网络的权重;步骤5,判断当前迭代周期是否已经结束,是则进入步骤6,否则回到步骤3;步骤6,判断最近两个迭代周期产生的神经网络权重是否有明显变化,是则用新产生的控制器、评价器神经网络进入步骤2,否则输出最终的控制器神经网络控制器。

Description

基于数据的Q函数自适应动态规划方法
技术领域
本发明涉及智能控制技术领域,尤其涉及基于数据的Q函数自适应动态规划方法。
背景技术
在工业生产、航空航天、汽车工程等领域,被控对象能够在有限的资源下使用最小的资源来完成控制目标,即最优控制。最优控制指的是找到一个最优控制策略能够使得性能指标函数达到最优。性能指标函数是与系统的状态和所采用的控制策略有关,它能够反映该控制策略在当前以及以后时刻的控制效果。针对离散系统性能指标函数可以用数学形式可以表示成如下式子:
V ( x k ) = Σ n = k ∞ r ( x n , u n )
其中系统运行时间用下标k表示,xk和uk分别指k时刻系统状态和控制动作。r(·,·)被称为效用函数,反映某一时刻当前系统的运行好坏。因此最优控制便是寻找使上式有最优解的控制策略,即:
V * ( x k ) = min μ Σ n = k ∞ r ( x n , μ n )
μ指的是任意控制策略。最优控制是现代控制理论中重要的组成部分。然而,由于计算的复杂性,最优的控制策略一般是无法直接计算得到的。尤其是针对非线性系统,计算难度非常巨大。特别是车辆行驶的车道保持问题,不仅要考虑控制车辆在保持在车道内,还要使控制动作尽可能小,控制时间尽可能短,是典型的非线性系统的最优控制问题。而且,在实际应用中,由于车内乘坐人员重量变化、路况变化等,很难得到精确的车辆模型,提出了基于数据的最优控制器的设计问题。
自适应动态规划自20世纪80年代提出来,得到了快速的发展。它主要是用来解决动态规划问题,尤其是在求解最优控制方面表现了巨大的优势。自适应动态规划方法一般使用控制器-评价器(actor-critic)结构和神经网络,用来逼近性能指标函数和控制策略,采用迭代的方法逐步逼近,最终收敛到最优性能指标函数和最优控制策略。
然而,传统的自适应动态规划方法一般是逼近仅和系统状态有关的V函数。V函数相对比较简单,计算方便,但是V函数自适应动态规划方法的运行依赖系统模型因而常常被用于离线运行。当系统模型未知时,V函数自适应动态规划方法将不再适用,除非再加上一个系统辨识网络用来辨识系统模型。但加上系统辨识网络后,整个算法的结构变得复杂、冗余,而且辨识网络的训练和V函数自适应动态规划方法的运行是完全分开的,这不利于整个算法。因此提出一种不依赖于系统模型的自适应动态规划方法显得尤为重要。
发明内容
针对传统的自适应动态规划依赖系统模型,该发明提出一种基于Q函数的自适应动态规划方法,用于解决一类非线性系统的最优控制问题,并给出了车辆行驶中的车道保持问题的具体实施方式。定义的Q函数不仅与系统状态有关,同时也与控制动作相关,使得Q函数能够包含系统模型信息,因而Q函数自适应动态规划方法不依赖系统模型,而是基于实时产生的系统状态和相应的控制动作来调整控制器和评价器神经网络的权重。最终,Q函数自适应动态规划方法能够在线运行并使得控制器和评价器神经网络最终迭代收敛到最优控制策略和最优性能指标函数。特别适用于线性或非线性离散系统的在线求解最优控制问题。该方法可以成功地应用在车道保持问题上。
本发明提出一种通过自适应动态规划优化系统控制策略的方法,其包括以下步骤:
步骤1,初始化任意一个稳定的控制策略作为当前控制策略;
步骤2,使用当前控制策略初始化控制器、评价器神经网络的权重;
步骤3,根据当前控制策略和当前时刻被控系统的状态,生成控制动作并施加到被控系统上,获得下一时刻的系统状态;
步骤4,根据前一时刻系统状态、相应控制动作和下一时刻的系统状态,调整控制器、评价器神经网络的权重,获得调整后的控制器和评价器神经网络权重;
步骤5,判断当前迭代周期是否已经结束,是则进入步骤6,否则将调整后的控制器神经网络权重对应的控制策略作为当前控制策略返回步骤3继续执行;
步骤6,判断最近两个迭代周期所产生的控制器、评价器神经网络权重是否有明显变化,是则将调整后的控制器神经网络对应的控制策略作为当前控制策略进入步骤2继续优化,否则输出当前控制器神经网络对应的控制策略作为最优的控制策略。
本发明直接利用实时采集的数据,不依赖于系统模型。将车道保持作为本发明的研究对象,如图2所示。控制目标是控制前轮转角使得车辆能够稳定运行在车道中央。
综上所述,与传统的自适应动态规划方法相比,本发明提出的Q函数自适应动态规划方法具有以下优点:
●本发明提出的Q函数自适应动态规划方法不依赖于被控对象模型,而是基于采集的系统数据,使得该方法适用于在线运行;
●不论是线性还是非线性离散系统,该方法都能够适用;
●采用策略迭代的方法,保证整个算法在运行中,控制策略始终都是稳定的且能收敛到最优解。
●控制动作加入了探索噪声,既满足了持续激励条件,同时也保证了整个系统在运行当中不断输出有用的系统数据。
附图说明
图1是本发明中基于数据的Q函数自适应动态规划方法流程图;
图2是本发明优选实施例中车道保持问题示意图;
图3是本发明中控制器-评价器结构图;
图4是本发明中控制器和评价器的神经网络结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,参照附图,对本发明进行进一步详细说明。
图1是基于Q函数自适应动态规划方法的应用流程图。
如图1所示,该方法包括以下几个步骤:
步骤1,首先初始化任意一个稳定的控制策略,要求这个控制策略能够稳定控制被控系统。
图2是车道保持问题示意图。其中车辆重心横向偏移距离ycg指的是车辆重心到车道的偏移距离,车辆与车道的偏转角ψd指的是车辆方向与车道切线方向的夹角,而δ则是前轮转角。稳定的控制策略指的是在某一区域内,在任意初始状态下,控制策略能够对被控系统进行稳定控制。初始稳定的控制策略不仅保证了相应的性能指标函数是有效的,同时有利于Q函数自适应动态规划方法的在线运行。初始的稳定控制策略不需要是最优的,可以是任意一种稳定的控制策略。在实际应用中,一个被控系统的稳定控制策略是很容易得到,如常见的LQR方法、模糊控制等等都可以作为初始的稳定控制策略。在车道保持问题上,稳定的控制策略即是能够将车辆稳定行驶在车道上的控制策略。
步骤2,采用控制器-评价器结构,并用神经网络逼近控制策略和性能指标函数。用已有的控制策略初始化控制器、评价器神经网络的权重进入一个迭代周期。
图3是控制器-评价器结构图,示出了评价器、控制器和被控系统之间的数据流向,其中uk和xk分别表示控制动作和该控制动作下的系统状态。图4是神经网络结构图。神经网络结构包括输入、n个隐藏神经元和相应的n个神经元权重w1,w2,…,wn和输出。控制器和评价器神经网络分别用来逼近控制策略和性能指标函数。控制器神经网络用来计算控制动作,而评价器神经网络则用来反映当前控制策略的性能指标,从而改进当前控制策略。神经网络逼近控制策略和性能指标函数可以用如下公式表示:
u ^ ( i ) ( x k ) = W u ( i ) T Ψ ( x k ) - - - ( 1 )
Q ^ ( i ) ( x k , u k ) = W Q ( i ) T Φ ( x k , u k ) - - - ( 2 )
其中,上标i指的是第i次迭代周期;
Figure BDA00002795662600052
分别表示由神经网络逼近的性能指标函数和控制策略。
Figure BDA00002795662600054
分别是控制器和评价器神经网络的权重,
Figure BDA00002795662600056
Figure BDA00002795662600057
被称为激活函数,其可以为高斯函数或二次函数,而M和N则是两个神经网络的隐含层神经元个数。符号T表示对向量或矩阵作转置。输入变量包括车辆重心横向偏移距离ycg,车辆与车道的偏转角ψd,以及车辆自身的旋转角速度rd。控制动作是前轮转角δ。根据神经网络的逼近性,通过选取合适的神经网络结构并调整相应的神经网络权重,是可以有效的逼近性能指标函数和控制策略。尤其是当被控系统是非线性系统时,性能指标函数和控制策略是高度非线性函数,无法直接用函数表示时,神经网络能够有效地解决相应的问题。
步骤3,根据当前控制策略和当前时刻系统状态,生成控制动作并施加到系统上,观测下一时刻的系统状态。
为了满足持续激励条件,用上面所述的控制器神经网络计算得到的控制动作需要加上一个探索噪声才可以施加到被控系统上:
u ‾ k = u ^ ( i ) ( x k ) + n k - - - ( 3 )
其中nk指的是探索噪声,
Figure BDA00002795662600059
是最终被施加到被控系统上的控制动作,在车道保持时线型变换为前轮转角δ。
步骤4,根据已有的系统观测量,包括前一时刻系统状态、相应控制动作和下一时刻的系统状态,调整控制器、评价器神经网络的权重。由于控制策略和性能指标函数是随着控制器、评价器神经网络的权重而改变的,调整了控制器、评价器神经网络的权重,意味着控制策略和性能指标函数的更新。
为了保证该发明的有效运行,采用策略迭代的方法,计算当前迭代周期的控制策略的性能指标函数
Figure BDA000027956626000510
和下一迭代周期的控制策略
Q ^ ( i ) ( x k , u k ) = r ( x k , u k ) + Q ^ ( i ) ( x k + 1 ( u k ) , u k + 1 ( i ) ) , Q ^ ( i ) ( 0,0 ) = 0 - - - ( 4 )
u ^ ( i + 1 ) = arg min μ k Q ^ ( i ) ( x k , μ k ) - - - ( 5 )
其中效用函数r(·,·)定义为
Figure BDA00002795662600062
Q和R是正定矩阵,xk+1(uk)指在采用uk这个控制动作后的系统状态,
Figure BDA00002795662600063
指当前控制策略下在系统状态为xk+1(uk)时对应的控制动作,μk指在系统状态xk时可以采用的任意一种控制动作。这样效用函数与系统状态和控制动作相关,从而控制目标便是找到最优的控制策略使得系统稳定时间尽可能短,施加的控制动作尽量的小。
由于性能指标函数
Figure BDA00002795662600064
是关于评价器神经网络权重
Figure BDA00002795662600065
的线性函数(见公式(2)),利用实时采集的系统观测量来调整评价器神经网络权重时,可以采用递推最小二乘法来计算评价器神经网络权重
Figure BDA00002795662600066
即根据公式(1)、(2)、(4)和(5)得到下面的公式表示:
z(j)=r(xk,uk)
h ( j ) = Φ ( x k , u k ) - Φ ( x k + 1 ( u k ) , u k + 1 ( i ) )
l(j)=P(j-1)h(j)[h(j)TP(j-1)h(j)+1]-1    (6)
P(j)=[I-l(j)h(j)T]P(j-1)
W Q ( i , j ) = W Q ( i , j - 1 ) + l ( j ) [ z ( j ) - h ( j ) T W Q ( i , j - 1 ) ]
其中,上标j是指在这个第i次迭代周期内进行第j次调整,j与当前迭代周期中的时刻有关,即当第j次调整对应第k时刻时,第j+1次调整对应第k+1时刻,z(j)、h(j)、l(j)和P(j)是在运行递推最小二乘法时需要的一些中间变量,
Figure BDA00002795662600069
指当前控制策略下在系统状态为xk+1(uk)时对应的控制动作。在每轮迭代周期中,用当前时刻的权重调整下一时刻的权重,最终得到收敛后的评价器神经网络的权重。
在求解控制策略时,由公式(5)无法给出一个明确的表达式来作为控制器神经网络的权重,因此,选择梯度下降法来计算控制器神经网络的权重
Figure BDA000027956626000610
W u ( i + 1 , j + 1 ) = W u ( i + 1 , j ) - α Ψ ( Ψ T Ψ + 1 ) 0.5 · ▿ u Φ T ( ▿ u Φ T ▿ u Φ + 1 ) 0.5 · W Q ( i , j )
其中,α被称为下降因子;Ψ=Ψ(xk)和
Figure BDA00002795662600071
TΨ+1)0.5
Figure BDA00002795662600072
是用来进行归一化,保证算法的有效运行。
步骤5,判断当前迭代的周期是否已经结束,即达到最大的参数调整次数;是则意味着生成了新的控制策略和性能指标函数,进入步骤6,否则回到步骤3继续调整控制器、评价器神经网络的权重。
步骤6,判断最近两个迭代周期产生的神经网络权重是否有明显变化,是则表示还未得到最优解,用新产生的控制器、评价器神经网络进入步骤2,否则输出最终的最优控制器神经网络控制器,如实现车道保持的最优控制器。
经过上述步骤1~6后,最终获得的控制器和评价器神经网络被认为是最优控制策略和最优性能指标函数。
以上所述的方法步骤,对本发明的目的、技术方案和有益效果进行了进一步详细说明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种通过自适应动态规划优化系统控制策略的方法,其包括以下步骤: 
步骤1,初始化任意一个稳定的控制策略作为当前控制策略; 
步骤2,使用当前控制策略初始化控制器、评价器神经网络的权重; 
步骤3,根据当前控制策略和当前时刻被控系统的状态,生成控制动作并施加到被控系统上,获得下一时刻的系统状态; 
步骤4,根据前一时刻系统状态、相应控制动作和下一时刻的系统状态,调整控制器、评价器神经网络的权重,获得调整后的控制器和评价器神经网络权重; 
步骤5,判断当前迭代周期是否已经结束,是则进入步骤6,否则将调整后的控制器神经网络权重对应的控制策略作为当前控制策略返回步骤3继续执行; 
步骤6,判断最近两个迭代周期所产生的控制器、评价器神经网络权重是否有明显变化,是则将调整后的控制器神经网络对应的控制策略作为当前控制策略进入步骤2继续优化,否则输出当前控制器神经网络对应的控制策略作为最优的控制策略。 
2.根据权利要求1所述的方法,其特征在于,该方法基于被控系统的系统状态和控制动作的性能指标函数,通过在线运行被控系统实时优化所述被控系统的控制策略。 
3.根据权利要求1所述的方法,其特征在于,步骤4中调整评价器神经网络的权重的公式表示如下: 
z(j)=r(xk,uk
Figure DEST_PATH_FDA00003257530900011
l(j)=P(j-1)h(j)[h(j)TP(j-1)h(j)+1]-1
P(j)=[I-l(j)h(j)T]P(j-1) 
Figure DEST_PATH_FDA00003257530900012
其中,效用函数r(·,·)定义为
Figure DEST_PATH_FDA00003257530900013
Q和R是正定矩阵; xk+1(uk)是指在系统状态xk下施加控制动作uk后系统下一时刻的状态;Ψ=[ψ1,ψ2,…,ψM]T
Figure DEST_PATH_FDA00003257530900021
是激活函数; 
Figure DEST_PATH_FDA00003257530900022
是第i次迭代周期内进行的第j次调整后的评价器神经网络的权重,I是单位阵;第j次调整对应第k时刻,第j-1次调整对应第k-1时刻。 
4.如权利要求1所述的方法,其特征在于,步骤4中控制器神经网络的权重如下调整: 
Figure DEST_PATH_FDA00003257530900023
其中,α被称为下降因子;
Figure DEST_PATH_FDA00003257530900024
表示第i+1轮迭代周期第j+1次调整;Ψ=Ψ(xk)和
Figure DEST_PATH_FDA00003257530900025
表示i次迭代周期内进行了第j次调整后的评价器神经网络的权重,第j次调整对应第k时刻,第j-1次调整对应第k-1时刻。 
5.如权利要求1所述的方法,其特征在于,所述控制策略和性能指标函数如下表示: 
Figure DEST_PATH_FDA00003257530900027
其中,上标i指的是第i次迭代周期;分别表示性能指标函数和控制策略;
Figure DEST_PATH_FDA000032575309000211
Figure DEST_PATH_FDA000032575309000212
分别是控制器和评价器神经网络的权重,Ψ=[ψ1,ψ2,…,ψM]T和 
Figure DEST_PATH_FDA000032575309000213
是激活函数。 
6.如权利要求1所述的方法,其特征在于,通过所述控制器神经网络计算得到当前时刻要施加到被控系统上的控制动作,具体如下表示: 
Figure DEST_PATH_FDA000032575309000214
其中,nk是探索噪声,是被施加到被控系统上的控制动作,
Figure DEST_PATH_FDA00003257530900032
是当前控制策略下在系统状态xk时计算得到的控制动作。 
7.如权利要求1所述的方法,其特征在于,步骤4中通过建立的Q函数迭代更新调整所述控制器、评价器神经网络的权重,所述Q函数如下表示: 
Figure DEST_PATH_FDA00003257530900033
Figure DEST_PATH_FDA00003257530900034
其中,
Figure DEST_PATH_FDA00003257530900035
是第i次迭代周期的性能指标函数,
Figure DEST_PATH_FDA00003257530900036
是第i+1次迭代周期的控制策略,效用函数r(·,·)定义为
Figure DEST_PATH_FDA00003257530900037
Q和R是正定矩阵,xk+1(uk)指在采用uk这个控制动作后的系统状态,
Figure DEST_PATH_FDA00003257530900038
指当前控制策略下在系统状态为xk+1(uk)时对应的控制动作,μk指在系统状态xk时可以采用的任意一种控制动作。 
8.如权利要求1所述的方法,其特征在于,步骤5中通过判断是否达到参数调整的最大次数来判断当前迭代周期是否已经结束。 
CN201310036976.XA 2013-01-30 2013-01-30 基于数据的q函数自适应动态规划方法 Active CN103217899B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310036976.XA CN103217899B (zh) 2013-01-30 2013-01-30 基于数据的q函数自适应动态规划方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310036976.XA CN103217899B (zh) 2013-01-30 2013-01-30 基于数据的q函数自适应动态规划方法

Publications (2)

Publication Number Publication Date
CN103217899A true CN103217899A (zh) 2013-07-24
CN103217899B CN103217899B (zh) 2016-05-18

Family

ID=48815806

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310036976.XA Active CN103217899B (zh) 2013-01-30 2013-01-30 基于数据的q函数自适应动态规划方法

Country Status (1)

Country Link
CN (1) CN103217899B (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105071421A (zh) * 2015-08-17 2015-11-18 中国科学院自动化研究所 办公建筑能耗管理方法
CN105843037A (zh) * 2016-04-11 2016-08-10 中国科学院自动化研究所 基于q学习的智能楼宇温度控制方法
CN105870942A (zh) * 2016-05-18 2016-08-17 中国电力科学研究院 一种基于近似动态规划算法的一次调频附加学习控制方法
CN107065561A (zh) * 2017-05-16 2017-08-18 清华大学 两轮自平衡车的机器学习控制方法
CN107193210A (zh) * 2017-05-08 2017-09-22 西北工业大学 一种非线性系统的自适应学习预设性能控制方法
CN108073076A (zh) * 2017-12-22 2018-05-25 东软集团股份有限公司 车辆控制方法和装置
CN108227491A (zh) * 2017-12-28 2018-06-29 重庆邮电大学 一种基于滑模神经网络的智能车轨迹跟踪控制方法
CN108376284A (zh) * 2017-01-31 2018-08-07 松下电器(美国)知识产权公司 控制装置以及控制方法
CN108459506A (zh) * 2018-03-20 2018-08-28 清华大学 一种风机虚拟惯量控制器的参数整定方法
CN110021177A (zh) * 2019-05-06 2019-07-16 中国科学院自动化研究所 启发式随机搜索交通信号灯配时优化方法、系统
CN110308650A (zh) * 2019-06-27 2019-10-08 广东工业大学 一种基于数据驱动的压电陶瓷驱动器控制方法
CN111308896A (zh) * 2015-05-25 2020-06-19 中国科学院自动化研究所 基于可变误差的非线性系统自适应最优控制方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6532454B1 (en) * 1998-09-24 2003-03-11 Paul J. Werbos Stable adaptive control using critic designs
US7047224B1 (en) * 1998-09-23 2006-05-16 Siemens Aktiengesellschaft Method and configuration for determining a sequence of actions for a system which comprises statuses, whereby a status transition ensues between two statuses as a result of an action
CN101789178A (zh) * 2009-01-22 2010-07-28 中国科学院自动化研究所 街区路口交通信号优化控制方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7047224B1 (en) * 1998-09-23 2006-05-16 Siemens Aktiengesellschaft Method and configuration for determining a sequence of actions for a system which comprises statuses, whereby a status transition ensues between two statuses as a result of an action
US6532454B1 (en) * 1998-09-24 2003-03-11 Paul J. Werbos Stable adaptive control using critic designs
CN101789178A (zh) * 2009-01-22 2010-07-28 中国科学院自动化研究所 街区路口交通信号优化控制方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
HUAGUANG ZHANG,YANHONG LUO,DERONG LIU: "Neural-network-based near-optimal control for a class of discrete-time affine nonlinear systems with control constraints", 《IEEE TRANSACTIONS ON NEURAL NETWORKS》, vol. 20, no. 9, 30 September 2009 (2009-09-30), XP011271512, DOI: 10.1109/TNN.2009.2027233 *
赵冬斌,刘德荣,易建强: "基于自适应动态规划的城市交通信号优化控制方法综述", 《自动化学报》, vol. 35, no. 6, 30 June 2003 (2003-06-30), pages 676 - 681 *

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111308896B (zh) * 2015-05-25 2021-07-13 中国科学院自动化研究所 基于可变误差的非线性系统自适应最优控制方法
CN111308896A (zh) * 2015-05-25 2020-06-19 中国科学院自动化研究所 基于可变误差的非线性系统自适应最优控制方法
CN105071421A (zh) * 2015-08-17 2015-11-18 中国科学院自动化研究所 办公建筑能耗管理方法
CN105843037A (zh) * 2016-04-11 2016-08-10 中国科学院自动化研究所 基于q学习的智能楼宇温度控制方法
CN105843037B (zh) * 2016-04-11 2019-05-10 中国科学院自动化研究所 基于q学习的智能楼宇温度控制方法
CN105870942A (zh) * 2016-05-18 2016-08-17 中国电力科学研究院 一种基于近似动态规划算法的一次调频附加学习控制方法
CN105870942B (zh) * 2016-05-18 2022-04-29 中国电力科学研究院 一种基于近似动态规划算法的一次调频附加学习控制方法
CN108376284A (zh) * 2017-01-31 2018-08-07 松下电器(美国)知识产权公司 控制装置以及控制方法
CN107193210A (zh) * 2017-05-08 2017-09-22 西北工业大学 一种非线性系统的自适应学习预设性能控制方法
CN107193210B (zh) * 2017-05-08 2020-10-16 西北工业大学 一种非线性系统的自适应学习预设性能控制方法
CN107065561B (zh) * 2017-05-16 2019-11-22 清华大学 两轮自平衡车的机器学习控制方法
CN107065561A (zh) * 2017-05-16 2017-08-18 清华大学 两轮自平衡车的机器学习控制方法
CN108073076B (zh) * 2017-12-22 2020-08-28 东软集团股份有限公司 车辆控制方法和装置
CN108073076A (zh) * 2017-12-22 2018-05-25 东软集团股份有限公司 车辆控制方法和装置
CN108227491A (zh) * 2017-12-28 2018-06-29 重庆邮电大学 一种基于滑模神经网络的智能车轨迹跟踪控制方法
CN108459506A (zh) * 2018-03-20 2018-08-28 清华大学 一种风机虚拟惯量控制器的参数整定方法
CN108459506B (zh) * 2018-03-20 2020-12-08 清华大学 一种风机虚拟惯量控制器的参数整定方法
CN110021177B (zh) * 2019-05-06 2020-08-11 中国科学院自动化研究所 启发式随机搜索交通信号灯配时优化方法、系统
CN110021177A (zh) * 2019-05-06 2019-07-16 中国科学院自动化研究所 启发式随机搜索交通信号灯配时优化方法、系统
CN110308650A (zh) * 2019-06-27 2019-10-08 广东工业大学 一种基于数据驱动的压电陶瓷驱动器控制方法

Also Published As

Publication number Publication date
CN103217899B (zh) 2016-05-18

Similar Documents

Publication Publication Date Title
CN103217899A (zh) 基于数据的q函数自适应动态规划方法
Luan et al. Trajectory tracking control of autonomous vehicle with random network delay
CN103324085A (zh) 基于监督式强化学习的最优控制方法
CN107561942A (zh) 基于模型补偿的智能车辆轨迹跟踪模型预测控制方法
Novi et al. Real-time control for at-limit handling driving on a predefined path
Yu et al. MPC-based regional path tracking controller design for autonomous ground vehicles
CN104859650A (zh) 一种多时间尺度的车辆横摆稳定性滚动优化控制方法
Zhu et al. Barrier-function-based distributed adaptive control of nonlinear CAVs with parametric uncertainty and full-state constraint
Zhang et al. Receding-horizon reinforcement learning approach for kinodynamic motion planning of autonomous vehicles
CN103439884A (zh) 一种基于模糊滑模的智能汽车横向控制方法
Hu et al. Safe reinforcement learning for model-reference trajectory tracking of uncertain autonomous vehicles with model-based acceleration
CN111459159A (zh) 一种路径跟随控制系统及控制方法
Chen et al. Rhonn modelling-enabled nonlinear predictive control for lateral dynamics stabilization of an in-wheel motor driven vehicle
Guo et al. Attack-resilient lateral stability control for four-wheel-driven EVs considering changed driver behavior under cyber threats
Lin et al. Continuous-time finite-horizon ADP for automated vehicle controller design with high efficiency
Shi et al. Physics-informed deep reinforcement learning-based integrated two-dimensional car-following control strategy for connected automated vehicles
CN113885548B (zh) 一种多四旋翼无人机输出约束状态一致博弈控制器
CN105644566A (zh) 一种基于车联网的电动汽车辅助换道轨迹的跟踪方法
Guo et al. Adaptive non‐linear coordinated optimal dynamic platoon control of connected autonomous distributed electric vehicles on curved roads
Fényes et al. LPV-based autonomous vehicle control using the results of big data analysis on lateral dynamics
Hou et al. Cooperative vehicle platoon control considering longitudinal and lane-changing dynamics
Wu et al. Consensus-based platoon forming for connected autonomous vehicles
Cao et al. Trajectory planning and tracking control of unmanned ground vehicle leading by motion virtual leader on expressway
Huang et al. Cascade optimization control of unmanned vehicle path tracking under harsh driving conditions
Xu et al. Support vector machine based model predictive control for vehicle path tracking control

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant