CN103381826B - 基于近似策略迭代的自适应巡航控制方法 - Google Patents

基于近似策略迭代的自适应巡航控制方法 Download PDF

Info

Publication number
CN103381826B
CN103381826B CN201310328571.3A CN201310328571A CN103381826B CN 103381826 B CN103381826 B CN 103381826B CN 201310328571 A CN201310328571 A CN 201310328571A CN 103381826 B CN103381826 B CN 103381826B
Authority
CN
China
Prior art keywords
state
controller
action
speed
strategy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310328571.3A
Other languages
English (en)
Other versions
CN103381826A (zh
Inventor
徐昕
王健
孙振平
安向京
郭琦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN201310328571.3A priority Critical patent/CN103381826B/zh
Publication of CN103381826A publication Critical patent/CN103381826A/zh
Application granted granted Critical
Publication of CN103381826B publication Critical patent/CN103381826B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Feedback Control In General (AREA)

Abstract

本发明公开了一种基于近似策略迭代的自适应巡航控制方法,其步骤为:(1)采集样本;(2)使用近似策略迭代算法在样本上学习,得到一个近似最优策略;(3)在巡航控制中在线优化PI控制器参数,即采用上述近似最优策略以数据驱动的方式去在线的优化PI控制器的参数,使巡航控制达到期望的性能。本发明具有原理简单、能够实现在线优化、提高控制性能等优点。

Description

基于近似策略迭代的自适应巡航控制方法
技术领域
本发明主要涉及到对汽车油门和刹车的智能控制方法领域,特指一种基于近似策略迭代的自适应巡航控制方法,使车辆运动速度高精度的逼近期望速度,尤其适用于汽车的自适应巡航控制。
背景技术
目前,已有的可用于汽车速度控制的方法包括基于动力学模型的PID控制、滑模控制、模糊逻辑以及模糊-神经网络控制方法等等。
其中,基于动力学模型的PID控制和滑模控制都需要车的纵向动力学模型,并且模型越精确,控制器的控制效果就越好。但是由于纵向动力学的复杂性和强非线性,很难得到一个完整、精确的模型,再加上要满足巡航控制中实时性的要求,于是用在控制器中的纵向动力学模型一般都被线性化或者被简化,通常以解析的形式或者图表的形式表述出来。因此,控制的效果就会受到模型精度的影响。虽然对整个纵向动力学模型进行了非参数建模,并且得到了一个较为准确的模型,但是该模型对于自动档的车无法反映出车自动换挡时对车速的影响,并且如果行驶环境发生变化时,模型的精度也会不准确。
PID是一种经典的控制方法,该方法的控制性能取决于比例、微分和积分参数,具有易于实现、鲁棒性强的特点,但是在控制如自主车一样的非线性系统时,固定参数的PID很难确定最优的系数,因而无法获得令人满意的控制效果。因此,可以通过在不同的条件下使用不同的系数来达到期望的控制性能。最简单的方法就是人工划分几个区间,在每个区间上制定一组系数,但是这些区间要根据不同的问题进行不同的划分,对于复杂的问题来说比较麻烦。另一种方法就是通过引入模糊逻辑,通过引入模糊逻辑可以利用if-then规则去模仿人控制车速的经验来控制车辆的纵向速度,因此控制效果的好坏直接取决于规则的制定,为了得到较好的控制效果就需要使用较多的模糊规则和自由参数。为了解决这个问题,引入了神经网络,只需少量的模糊规则,便可将所需的if-then规则通过神经网络的学习能力用神经网络的结构表示出来,并有效的调整模糊系统的隶属函数、规则库和输出参数,但是确定神经网络的隐层数和每个隐层的节点数没有一个固定统一的方法,主要还是依靠经验。
近年来,在仿真和实物领域,增强学习被越来越多的应用到机器人的控制中。增强学习完全基于模型参数未知的马尔科夫理论框架,并且被认为是解决复杂多步决策问题的一种有效的方法,它主要用于在模型信息较少时的马尔科夫决策过程。因此,增强学习非常适于解决在不确定条件下的序贯优化和控制问题,这非常适合应用在实际问题中。
然而,由于增强学习的试错机制,利用增强学习直接控制油门、刹车是不安全的。对于一个连续状态、动作空间的问题,学习算法有可能在没有遍历完整个状态、动作空间前就收敛了,因此当遇到一个新的状态时,算法有可能作出错误的选择。例如,对于巡航控制来说,算法有可能在车需要刹车减速的时候选择一个较大的油门,因此必须对车的控制量施加一个约束。
PID控制器就是一种约束,它限制的控制量搜索的方向和速度。之所以选择PID控制器,是因为在已有的巡航控制器中,PID的参数最少。虽然固定参数的PID无法获得满意的控制效果,但是它在保持某一固定速度时具有非常好的性能。因此,只要能自动的根据不同的条件在线调整PID的参数,PID控制器的性能就能得到改善,从而达到满意的效果。
发明内容
本发明要解决的技术问题就在于:针对现有技术存在的技术问题,本发明提供一种原理简单、能够实现在线优化、提高控制性能的基于近似策略迭代的自适应巡航控制方法。
为解决上述技术问题,本发明采用以下技术方案:
一种基于近似策略迭代的自适应巡航控制方法,其步骤为:
(1)采集样本;
(2)使用近似策略迭代算法在样本上学习,得到一个近似最优策略;
(3)在巡航控制中在线优化PI控制器参数,即采用上述近似最优策略以数据驱动的方式去在线的优化PI控制器的参数,使巡航控制达到期望的性能。
作为本发明的进一步改进:所述步骤(1)的具体流程为:
(1.1)输入:Nstep,该采样周期中最大的采样步数;ε,随机的动作选择策略被执行的概率;π,基于主动学习的动作选择策略;
(1.2)初始化:D={},样本集合;s,初始状态;nstep=0,当前的样本采集步数;
(1.3)样本采集:
ε0,在区间[0,1]上均匀随机地抽取的随机数;
a,如果ε0<ε,执行基于主动学习的动作选择策略;否则,执行基于主动学习的动作选择策略π;
(s,a,s’,r),通过在环境中执行动作a获得的样本,(s,a,s’,r)表示系统在某一时刻的状态为s,执行动作a后进入下一个状态s’,同时得到一个即时回报r;
D=D∪(s,a,s’,r);
nstep=nstep+1,当前的样本采集步数;如果nstep<Nstep并且状态s’不是吸收态,s=s’,返回重新执行步骤(1.3)。
(1.4)返回采集到的样本集合D。
作为本发明的进一步改进:所述步骤(2)是通过执行器采用一个近似最优策略根据当前的状态估计每一个候选动作的性能,具体步骤为:
(2.1)巡航控制的MDP模型可定义为:一个马尔科夫决策过程用一个五元组来表示:(S,A,P,R,γ),其中,S是有限的状态集,A是有限的动作集,P是状态概率转移模型,R是回报函数,γ∈[0,1)是折扣因子;一个MDP的策略π是状态到动作的映射,其中,Ω(A)表示动作转移概率的集合;
一个策略π的状态-动作值函数定义为:
Q &pi; ( s , a ) = E &pi; { &Sigma; t = 0 &infin; &gamma; t r t | s 0 = s , a 0 = a }
对所有的状态-动作对(s,a),动作值函数Qπ(s,a)必须满足贝尔曼方程:
Q &pi; ( s , a ) = R ( s , a ) + &gamma; &Sigma; s &prime; &Element; S P ( s , a , s &prime; ) &Sigma; a &prime; &Element; A &pi; ( s &prime; , a &prime; ) Q &pi; ( s &prime; , a &prime; )
其中,π(s',a')表示在当前状态s下选择动作a进入下一个状态s’后选择下一个动作a'的概率;写成矩阵形式,可以表示为:
Qπ=R+γΡΠπQπ
(I-γΡΠπ)Qπ=R
对一个确定性的策略集合,存在一个最优策略π*,使得对每一个状态-动作的回报值Qπ最大:
Q * ( s , a ) = max &pi; Q &pi; ( s , a )
当求出最优值函数Q*(s,a)时,最优策略通过下式得到:
&pi; * = arg max a Q &pi; ( s , a ) ;
(2.2)MDP的状态和动作集合;根据状态和动作的定义,策略可以描述为:当车辆的速度和加速度为vc和ac、车辆的速度离期望速度还有Δv时,车辆到达期望速度所需要的最优系数;
(2.3)回报函数;
先利用一个样条函数来平滑车辆的加速、减速过程,称作目标曲线;用上述样条函数来定义动态过程,学习的目标就是使控制器能将车速的变化控制得像该样条函数一样;样条函数如下式所示:
v 0 ( t ) = c 0 + c 1 t + c 2 t , t 0 &le; t &le; t 1 v 1 ( t ) = c 3 + c 4 t , t 1 &le; t &le; t 2 v 2 ( t ) = c 5 + c 6 t + c 7 t 2 , t 2 &le; t &le; t 3 ,
其中,ci(i=0,1,…7)是多项式的系数;
定义好了学习目标以后,回报函数定义如下:
r = 0 , | v c - v t | &le; 0.03 , | a c - a t | &le; 0.02 - | v c - v t | , | v c - v t | > 0.03 , | a c - a t | &le; 0.02 ; - 2 | a c - a t | , | v c - v t | &le; 0.03 , | a c - v t | > 0.02 - | v c - v t | - 2 | a c - a t | , | v c - v t | > 0.03 , | a c - a t | > 0.02
(2.4)近似策略迭代学习算法;第一个步骤是利用基于近似线性相关的核稀疏化过程来得到一个核词典;第二个是利用贪婪策略和得到的核词典通过迭代得到一个近似最优策略π*
作为本发明的进一步改进:所述步骤(3)通过把近似策略迭代算法与PI控制器相结合,形成自学习巡航控制器;该控制器由一个PI控制器和一个执行器组成,其中,执行器由值函数、策略改进和系数调整三个模块组成;KP和KI分别为PI控制器的比例系数和积分系数,vc和ac表示车当前的实际速度和加速度,vd是给出的期望速度,Δv是实际速度与期望速度的差,u是油门刹车命令;值函数模块根据当前车的实际速度、加速度和速度误差来计算每一个(KP,KI)向量的回报值,然后策略改进模块根据每一个(KP,KI)向量的回报值选出一个回报值最大的(KP,KI)向量,最后系数调整模块将PI控制器原来的系数替换成当前选出的最优系数。
与现有技术相比,本发明的优点在于:
1、本发明的基于近似策略迭代的自适应巡航控制方法,原理简单、能够实现在线优化、提高控制性能,它通过执行器-评价器架构中的执行器利用一个近似最优策略来选择一组最优的PI参数,从而使控制性能得到改善。该近似最优策略是通过基于核的近似策略迭代算法利用样本离线得到的。
2、本发明实现了以数据驱动的汽车巡航控制器参数在线优化,使得巡航控制的性能得到了改善。
3、本发明使用离线的学习方法使得学习的过程安全、高效,方便。
附图说明
图1是本发明在具体应用实例中所形成的学习控制器的结构框架原理示意图。
图2是本发明在期望速度改变时,根据该样条函数生成目标速度和目标加速度的曲线示意图。
图3是本发明在具体应用实例中的近似策略迭代方法的原理示意图。
图4是传统PI控制算法与本发明近似策略迭代方法应用后控制性能的对比示意图;其中,图4(a)控制器1:KP=-0.5,KI=-0.0005,图4(b)控制器2:KP=-0.5,KI=-0.001,图4(c)控制器3:KP=-0.25,KI=-0.0005,图4(d)控制器4:KP=-0.25,KI=-0.001;图4(e)控制器5:KP=-0.1,KI=-0.0005,图4(f)控制器6:KP=-0.1,KI=-0.001,图4(g)控制器7:近似策略迭代学习后的控制性能。
具体实施方式
以下将结合说明书附图和具体实例对本发明做进一步详细说明。
本发明基于近似策略迭代的自适应巡航控制方法,采用离线的使用近似策略迭代学习算法,整个优化算法分为三个阶段:首先是采集样本;其次是使用近似策略迭代算法在样本上学习,得到一个近似最优策略;最后在巡航控制中在线优化PI控制器参数,即使用该近似最优策略以数据驱动的方式去在线的优化PI控制器的参数,从而使巡航控制达到期望的性能。在具体实例中,具体流程如下:
(1)样本采集;
一个样本的组织形式如下:
(s,a,r,s′)
上述样本表示:智能体在某一时刻的状态为s,执行动作a后进入下一个状态s’,同时得到一个即时回报r。
样本的采集过程分为四个步骤:1.初始化期望速度、当前回报、当前车的状态;2.选择一个动作;3.执行该动作;4.记录当前车的状态、动作、回报和执行动作后的状态。样本要尽可能的遍历整个状态-动作空间。
期望速度的初始化通过随机选取一个均匀分布的随机数,该随机数在零到最大速度上均匀分布。通过定义的样条函数被用来平滑两个不同的期望速度之间的过渡过程,使得加速和减速能够比较平滑。
当前回报可以初始化为一个数值较大的负数,如-1000。
考虑到速度传感器的精度以及车辆在不同速度上不同的纵向动力学特性,车速的初始化也是随机、均匀的选取一个随机数,该随机数也是在零到最大速度之间均匀分布。加速度的初始化由一个标准正态分布的随机数产生,这是由于当车速不经常变化时,车的加速度基本上在零的附近。最后,速度误差初始化为车辆速度与期望速度的差。
与仿真不同的是,车辆的初始状态不能立刻达到。因此,当初始化状态产生后,需要利用一个PI控制器或者其它的速度控制器使车达到初始状态。但是,初始状态中的速度和加速度常常不能同时满足,在这种情况下,当车速达到初始化速度时,记下此时的速度和加速度,并将这两个量作为初始状态中相应分量,同时进入下一个步骤——动作选取。
为了减少有限样本集中的干扰样本,如果当前的即时回报为零,那么就不需要再去选取别的动作,因为当前的动作已经是最好了。如果当前的即时回报小于零,则在动作集中随机选取一个动作。
动作选取完以后,保存当前的状态s、动作a,然后执行该动作。一个采样周期过后,记录下当时的状态s’、即时回报r,一个样本(s,a,r,s’)就产生了。当目标速度不再变化,并且及时回报为零时,当前的状态就是吸收状态。
采集样本是任何解决增强学习问题的离线方法的首要步骤,并且对问题的解决产生重大影响。所以离线地解决增强学习问题,需要一个良好的采样策略。本发明给出一个新的基于核的采样策略,来提高近似策略迭代算法的性能。在该采样策略中采用在线的近似策略迭代算法,由于该算法能够在线的自动构造非线性特征并且用这些特征逼近行为值函数,所以通过这个策略采集到的样本都是具有代表性的来逼近行为值函数,同时逼近的行为值函数又能够采集到更有意义的样本。
为了能够很好地平衡在线效能和探索尝试之间的关系,在基于核的采样算法中引入了近似贪婪(ε-贪婪)的动作选择机制。在这个机制下,样本的采集策略中动作的选择策略由随机的动作选择策略和基于主动学习的动作选择策略组成。随机的动作选择策略就是均匀地随机选择动作,基于主动学习的动作选择策略就是基于当前主动学习获取的知识来选择动作。关键参数ε(ε∈[0,1])表示随机的动作选择策略被执行的概率,那么基于主动学习的动作选择策略被执行的概率为1-ε。
在具体实例中,在每一个样本的采集周期中,样本采集算法如下所示:
正如上面算法中所示,主动学习通过现有知识得到的动作选择策略π对有效的样本采集是十分重要的。因此,在每个样本采集后或者每个样本采集周期后,必须及时地更新基于主动学习的动作选择策略π。由于近似策略迭代算法具有自动构造非线性特征的特点,故采用该算法来逼近基于主动学习的动作选择策略会改善样本采集的效果。
(2)利用近似策略迭代求解近似最优策略;
具体过程为:
(2.1)巡航控制的MDP模型定义
一个马尔科夫决策过程(MDP)可以用一个五元组来表示:(S,A,P,R,γ),其中,S是有限的状态集,A是有限的动作集,P是状态概率转移模型,R是回报函数,γ∈[0,1)是折扣因子。一个MDP的策略π是状态到动作的映射,,其中,Ω(A)表示动作转移概率的集合。
一个策略π的状态-动作值函数定义为:
Q &pi; ( s , a ) = E &pi; { &Sigma; t = 0 &infin; &gamma; t r t | s 0 = s , a 0 = a } ,
对所有的状态-动作对(s,a),动作值函数Qπ(s,a)必须满足贝尔曼方程:
Q &pi; ( s , a ) = R ( s , a ) + &gamma; &Sigma; s &prime; &Element; S P ( s , a , s &prime; ) &Sigma; a &prime; &Element; A &pi; ( s &prime; , a &prime; ) Q &pi; ( s &prime; , a &prime; )
其中,π(s',a')表示在当前状态s下选择动作a进入下一个状态s’后选择下一个动作a'的概率。写成矩阵形式,上式可以表示为:
Qπ=R+γΡΠπQπ
(I-γΡΠπ)Qπ=R。
对一个确定性的策略集合,存在一个最优策略π*,使得对每一个状态-动作的回报值Qπ最大:
Q * ( s , a ) = max &pi; Q &pi; ( s , a ) .
当求出最优值函数Q*(s,a)时,最优策略就可以通过下式得到:
&pi; * = arg max a Q &pi; ( s , a ) .
(2.2)MDP的状态和动作集合;
由于智能车辆的非线性纵向动力学特性,智能车辆在每一个速度上的动力学特性是不一样的,因此智能车辆状态的定义是一个三维向量:
s=(vc,ac,Δv),
其中,vc和ac是智能车辆当前的速度和加速度,Δv等于实际速度vc减去期望速度vd:Δv=vc-vd。这里当Δv表示的是智能车辆的一个状态分量,因此它的最大值不应被限制,但是当Δv用于PI控制器中时,为了安全Δv的最大值应该被限制为一个定值。
动作a的定义为PI控制器的比例积分系数,也是一个向量:
a=(KP,KI)。
根据状态和动作的定义,策略可以描述为:当车辆的速度和加速度为vc和ac、车辆的速度离期望速度还有Δv时,车辆到达期望速度所需要的最优系数。
(2.3)回报函数;
定义回报函数之前,首先需要定义一个学习目标。利用一个样条函数来平滑车辆的加速、减速过程。本发明就用该样条函数来定义动态过程,称作目标曲线。学习的目标就是使控制器能将车速的变化控制得像该样条函数一样。因此,该样条函数就是学习目标。
该样条用作学习目标而不是期望速度主要基于两点原因。首先,在PI控制参数优化的过程中,核函数的计算比较费时间,因此为了保证整个底层控制程序的实时性,要求控制、优化算法尽量简单。其次,在实际的自主驾驶过程中,由于驾驶环境的复杂性,期望速度的变化速度有时会比较快,这就造成平滑的样条函数不存在,但是在采样阶段期望速度的持续时间是可以人为控制的,因此该样条函数只用在采样阶段来当作学习目标使用。
该样条函数由三部分组成:第一、三部分是一个二次多项式,第二部分是一个一次多项式,因此该样条函数被称作2-1-2样条,如下式所示:
v 0 ( t ) = c 0 + c 1 t + c 2 t , t 0 &le; t &le; t 1 v 1 ( t ) = c 3 + c 4 t , t 1 &le; t &le; t 2 v 2 ( t ) = c 5 + c 6 t + c 7 t 2 , t 2 &le; t &le; t 3 ,
其中,ci(i=0,1,…7)是多项式的系数。
由该样条计算出的速度和加速度称作目标速度和目标加速度。目标加速度小于最大期望加速度amax,它是一次多项式的斜率。目标加速度是目标速度的微分形式:
a 0 ( t ) = v 0 &prime; ( t ) = c 1 + 2 c 2 t , t 0 &le; t &le; t 1 a 1 ( t ) = v 1 &prime; ( t ) = c 4 , t 1 &le; t &le; t 2 a 2 ( t ) = v 2 &prime; ( t ) = c 6 + 2 c 7 t t 2 &le; t &le; t 3 .
为了得到一个光滑的样条函数,在满足下列条件时,系数ci在实数域内应该有解:
v 0 ( t 0 ) = v start , a 0 ( t 0 ) = 0 v 0 ( t 1 ) = v 1 ( t 1 ) , a 0 ( t 1 ) = a 1 ( t 1 ) v 1 ( v 2 ) = v 2 ( t 2 ) , a 1 ( t 2 ) = a 2 ( t 2 ) v 2 ( t 3 ) = v end , a 2 ( t 3 ) = 0 .
表示为矩阵形式,系数可以通过上式计算得出:
C=T·V,
其中,
C=[c0,c1,c2,c3,c4,c5,c6,c7]T
V=[vstart,0,0,vend,0,0,0,0]T
T = 1 t 0 t 0 2 0 0 0 0 0 1 t 1 t 1 2 - 1 - t 1 0 0 0 0 0 0 1 t 2 - 1 - t 2 - t 2 2 0 0 0 0 0 1 t 3 t 3 2 0 1 2 t 0 0 0 0 0 0 0 1 2 t 1 0 - 1 0 0 0 0 0 0 0 - 1 0 1 2 t 2 0 0 0 0 0 0 1 2 t 3 - 1 .
另外,如果期望速度变化的太快,这些系数ci在实数域内可能无解。
两个不同的期望速度之间的过渡时间由下式得出:
t = | v start - v end | A max = ( t 1 - t 0 ) + ( t 2 - t 1 ) + ( t 3 - t 2 ) ,
其中,vstart和vend的含义如图2所示。两个二次函数持续的时间(t1-t0)和(t3-t2)相同,都等于一次函数持续时间(t2-t1)的三分之一。图2是当期望速度改变时,根据该样条函数生成目标速度和目标加速度的一个例子。其中一条实线代表期望速度,另一条实线是生成的目标速度,该目标速度就是定义的学习目标,虚线是根据目标速度得出的目标加速度。
定义好了学习目标以后,回报函数定义如下:
r = 0 , | v c - v t | &le; 0.03 , | a c - a t | &le; 0.02 - | v c - v t | , | v c - v t | > 0.03 , | a c - a t | &le; 0.02 . - 2 | a c - a t | , | v c - v t | &le; 0.03 , | a c - a t | > 0.02 - | v c - v t | - 2 | a c - a t | , | v c - v t | > 0.03 , | a c - a t | > 0.02
由于车辆的非线性动力学特性和速度传感器的噪声,车辆的速度和加速度与目标速度和目标加速度完全相等,即满足条件:vc-vt=0和ac–at=0。因此需要规定一个范围,只要速度和加速度误差在该范围内,就认为已经达到了目标。吸收状态定义为当目标加速度为零时,
如果得到的即时回报为零,那么就认为该状态为吸收状态,同时结束当前的周期进入下一个周期。
(2.4)近似策略迭代学习算法
本发明采用的近似策略迭代有两个步骤。第一个步骤是利用如下的基于近似线性相关的核稀疏化过程来得到一个基于核函数特征的词典;第二个是利用贪婪策略和得到的核词典通过近似策略迭代得到一个近似最优策略π*
基于核的近似策略迭代是通过在近似策略迭代(API)中引进核机制,有效地实现了API的非线性逼近能力。在基于核的近似策略迭代算法中,基函数用核函数来描述:{φi(s)=k(s,si)}(i=1,2,…,M),其中k(s,si)为Mercer核函数,该核函数是一个正定函数。对一任意有限点集{s1,s2,…,sn},核矩阵K=[k(si,sj)]n×n是正定的。根据Mercer定理,存在一个再生核Hilbert空间H,以及从原状态空间S到H的映射函数,且该高维空间H中的所有内积运算<.,.>均可通过计算核函数来替代:
k(si,sj)=<φ(si),φ(sj)>
在近似策略迭代算法中需要解决的关键问题是如何保证解的稀疏性,从而减小核方法的计算与存储代价,同时有效地提高算法的泛化性能。实际上,在各种核方法的应用中,由于在通常情况下基于核的学习机器的可调参数与样本点的个数相同,所以当观测样本点个数增加时,核方法必须要解决解的稀疏化问题。本发明采用如下的快速核稀疏化方法:
在近似策略迭代算法中,一个策略π的动作值函数通过一个线性架构来近似:
Q &pi; ( s , a ) &ap; Q ~ &pi; ( s , a ) = &omega; &RightArrow; &CenterDot; k &RightArrow; ( s ) = &Sigma; i = 1 d &omega; i &CenterDot; k ( s , s i ) ,
其中,s和a分别为当前的状态和动作,k(.,.)是核函数,ωi是核函数的系数,si(i=1,2,…,d)是核词典中的元素,d是核词典中元素的个数,是基于核的特征向量:
k &RightArrow; ( s ) = ( k ( s , s 1 ) ,k ( s , s 2 ) , . . . k ( s , s d ) ) T .
对于所用的动作,近似状态-动作值函数是关于动作的一个分段函数:
Q ~ &pi; ( s , a ) = &omega; 1 k ( s , s 1 ) + . . . + &omega; d k ( s , s d ) , a 1 &omega; d + 1 k ( s , s 1 ) + . . . + &omega; 2 d k ( s , s d ) , a 2 . . . . . . &omega; d + n - 1 k ( s , s 1 ) + . . . + &omega; nd k ( s , s d ) , a n .
为了解决这样的问题,可以采用一类线性结构的逼近器来对状态-动作值函数Qπ[t](s,a)进行逼近。状态-动作值函数Qπ[t](s,a)可由M个带权值的基函数来线性逼近为:
Q ^ &pi; &lsqb; t &rsqb; ( s , a , w ) = &phi; ( s , a ) T &omega;
其中
Na是动作的数量,动作a被标记为l,,{φi(s)}是基函数,ω=(ω12,…,ωM×Na)T是权值向量。给定一个样本集D={(si,ai,si’,ri)|i=1,2,…,L},令
&Phi; = &phi; ( s 1 , a 1 ) T . . . &phi; ( s i , a i ) T . . . &phi; ( s L , a L ) T &Phi; &prime; = &phi; ( s 1 &prime; , &pi; &lsqb; t &rsqb; ( s 1 &prime; ) ) T . . . &phi; ( s i &prime; , &pi; &lsqb; t &rsqb; ( s i &prime; ) ) T . . . &phi; ( s L &prime; , &pi; &lsqb; t &rsqb; ( s L &prime; ) ) T R e = r 1 . . . r i . . . r L
则近似策略迭代算法的解为:
&omega; &pi; &lsqb; t &rsqb; = ( &Phi; T ( &Phi; - &gamma;&Phi; &prime; ) ) - 1 &Phi; T R e &pi; &lsqb; t + 1 ] ( s ) = arg max a &phi; ( s , a ) T &omega; &pi; &lsqb; t &rsqb;
以上公式所示为一个迭代过程,其中t为迭代次数,该迭代过程结束于最大迭代次数满足或者两次迭代的策略参数向量误差小于给定的阈值。
(3)在巡航控制中在线优化PI控制器参数。
通过把近似策略迭代算法与PI控制器相结合,自学习巡航控制器的结构框图如图1所示。该控制器由一个PI控制器和一个执行器组成,其中,执行器由“值函数”、“策略改进”和“系数调整”三个模块组成。
在图1中,KP和KI分别为PI控制器的比例系数和积分系数,vc和ac表示车当前的实际速度和加速度,vd是给出的期望速度,Δv是实际速度与期望速度的差,u是油门刹车命令。
“值函数”模块根据当前车的实际速度、加速度和速度误差来计算每一个(KP,KI)向量的回报值,然后“策略改进”模块根据每一个(KP,KI)向量的回报值选出一个回报值最大的(KP,KI)向量,最后“系数调整”模块将PI控制器原来的系数替换成当前选出的最优系数。整个优化过程是通过数据驱动的方式完成的。此外,为了保证行驶安全,速度误差和积分项的最大值应该限制为一个定值。
以下将以一个具体实例对本发明做进一步详细说明。
在样本采集的实验中,初始期望速度的集合为{0,1,3,5,7,9,11,13,15,17}米/秒,初始化车速以2米/秒为增量,在0到17米/秒的范围内进行离散化。动作集合由六个动作组成,这六个动作是根据经验和实验得到。
A={a1,a2,a3,a4,a5,a6},
其中:
a1={-0.5,-0.0005}
a2={-0.5,-0.001}
a3={-0.25,-0.0005}
a4={-0.25,-0.001}
a5={-0.1,-0.0005}
a6={-0.1,-0.001}
除了近似最优策略的求解,所有的实验都是实验平台上完成的。
样本采集是在城市环境中进行的。样本采集的时间间隔是50毫秒,一共500个周期,每个周期最大有200步,即每个周期最多10秒钟。最终得到的样本集有96460个样本,总共用了大约3个小时。在样本采集的过程中,最大期望加速度amax的设定由下式决定:
a max = 0.5 , | v start - v end | &le; 3 1.5 , else
其中,vstart和vend如图3所示。
核函数为径向基函数,近似策略迭代算法中的参数如表1所示。
表1近似策略迭代算法中的参数:
参数 Imax ε γ δ w
10 10-8 0.9 0.5 (4.5,1.5,9)
其中,Imax是最大迭代次数;ε是迭代结束的条件,表示当两次迭代产生的策略之间的距离小于ε时,迭代结束;γ是折扣因子;δ是使用ALD进行稀疏化时的阈值;w是径向基函数的半径。
最终得到的核词典由58个状态向量组成,近似状态-动作值函数中系数ωi的个数为348,等于动作的个数乘以核词典中元素的个数。学习巡航控制器(参见图1)的计算频率为20Hz,总共所需的时间不超过1毫秒,因此最终得到的控制器满足实时控制的要求。
如图4所示,为本发明采用近似策略迭代学习前后控制效果的对比以及与LSPI学习后控制效果的对比,在城市交通环境中的长时间巡航驾驶以及在越野环境中的自主驾驶。其中,图4(a)控制器1:KP=-0.5,KI=-0.0005,图4(b)控制器2:KP=-0.5,KI=-0.001,图4(c)控制器3:KP=-0.25,KI=-0.0005,图4(d)控制器4:KP=-0.25,KI=-0.001;图4(e)控制器5:KP=-0.1,KI=-0.0005,图4(f)控制器6:KP=-0.1,KI=-0.001,图4(g)控制器7:近似策略迭代学习后的控制性能。控制器i(i=1,2,…,6)是具有动作i(每一个动作对应一个KP,KI)的PI控制器。控制器7为学习控制器,使用的是近似策略迭代方法。对比结果如下表所示:
控制器 1 2 3 4 5 6 7
平均绝对误差(km/h) 1.1806 1.0809 1.148 1.0967 1.8571 1.3040 1.0494
标准方差(km/h) 2.6606 2.5064 2.1821 2.1545 2.3876 1.8943 2.0648
以上仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,应视为本发明的保护范围。

Claims (3)

1.一种基于近似策略迭代的自适应巡航控制方法,其特征在于,步骤为:
(1)采集样本;
(2)使用近似策略迭代算法在样本上学习,得到一个近似最优策略;
(3)在巡航控制中在线优化PI控制器参数,即采用上述近似最优策略以数据驱动的方式去在线优化PI控制器的参数,使巡航控制达到期望的性能;
所述步骤(1)的具体流程为:
(1.1)输入:Nstep,该采样周期中最大的采样步数;ε,随机的动作选择策略被执行的概率;π,基于主动学习的动作选择策略;
(1.2)初始化:D={},样本集合;s,初始状态;nstep=0,当前的样本采集步数;
(1.3)样本采集:
ε0,在区间[0,1]上均匀随机地抽取的随机数;
a,如果ε0<ε,执行基于主动学习的动作选择策略;否则,执行基于主动学习的动作选择策略π;
(s,a,s’,r),通过在环境中执行动作a获得的样本,(s,a,s’,r)表示系统在某一时刻的状态为s,执行动作a后进入下一个状态s’,同时得到一个即时回报r;
D=D∪(s,a,s’,r);
nstep=nstep+1,当前的样本采集步数;如果nstep<Nstep并且状态s’不是吸收态,s=s’,返回重新执行步骤(1.3);
(1.4)返回采集到的样本集合D。
2.根据权利要求1所述的基于近似策略迭代的自适应巡航控制方法,其特征在于,所述步骤(2)是通过执行器采用一个近似最优策略根据当前的状态估计每一个候选动作的性能,具体步骤为:
(2.1)巡航控制的MDP模型可定义为:一个马尔科夫决策过程用一个五元组来表示:(S,A,P,R,γ),其中,S是有限的状态集,A是有限的动作集,P是状态概率转移模型,R是回报函数,γ∈[0,1)是折扣因子;一个MDP的策略π是状态到动作的映射,其中,Ω(A)表示动作转移概率的集合;
一个策略π的状态-动作值函数定义为:
Q &pi; ( s , a ) = E &pi; { &Sigma; t = 0 &infin; &gamma; t r t | s 0 = s , a 0 = a }
对所有的状态-动作对(s,a),动作值函数Qπ(s,a)必须满足贝尔曼方程:
Q &pi; ( s , a ) = R ( s , a ) + &gamma; &Sigma; s &prime; &Element; S P ( s , a , s &prime; ) &Sigma; a &prime; &Element; A &pi; ( s &prime; , a &prime; ) Q &pi; ( s &prime; , a &prime; )
其中,π(s',a')表示在当前状态s下选择动作a进入下一个状态s’后选择下一个动作a'的概率;写成矩阵形式,可以表示为:
Qπ=R+γΡΠπQπ
(I-γΡΠπ)Qπ=R
对一个确定性的策略集合,存在一个最优策略π*,使得对每一个状态-动作的回报值Qπ最大:
Q * ( s , a ) = m a x &pi; Q &pi; ( s , a )
当求出最优值函数Q*(s,a)时,最优策略通过下式得到:
&pi; * = arg m a x a Q &pi; ( s , a ) ;
(2.2)MDP的状态和动作集合;根据状态和动作的定义,策略可以描述为:当车辆的速度和加速度为vc和ac、车辆的速度离期望速度还有Δv时,车辆到达期望速度所需要的最优系数;
(2.3)回报函数;
先利用一个样条函数来平滑车辆的加速、减速过程,称作目标曲线;用上述样条函数来定义动态过程,学习的目标就是使控制器能将车速的变化控制得像该样条函数一样;样条函数如下式所示:
v 0 ( t ) = c 0 + c 1 t + c 2 t 2 , t 0 &le; t &le; t 1 v 1 ( t ) = c 3 + c 4 t , t 1 &le; t &le; t 2 v 2 ( t ) = c 5 + c 6 t + c 7 t 2 , t 2 &le; t &le; t 3 ,
其中,ci(i=0,1,…7)是多项式的系数;
定义好了学习目标以后,回报函数定义如下:
r = 0 , | v c - v t | &le; 0.03 , | a c - a t | &le; 0.02 - | v c - v t | , | v c - v t | > 0.03 , | a c - a t | &le; 0.02 - 2 | a c - a t | , | v c - v t | &le; 0.03 , | a c - a t | > 0.02 - | v c - v t | - 2 | a c - a t | , | v c - v t | > 0.03 , | a c - a t | > 0.02 ;
(2.4)近似策略迭代学习算法;第一个步骤是利用基于近似线性相关的核稀疏化过程来得到一个核词典;第二个是利用贪婪策略和得到的核词典通过迭代得到一个近似最优策略π*
3.根据权利要求1所述的基于近似策略迭代的自适应巡航控制方法,其特征在于,所述步骤(3)通过把近似策略迭代算法与PI控制器相结合,形成自学习巡航控制器;该控制器由一个PI控制器和一个执行器组成,其中,执行器由值函数、策略改进和系数调整三个模块组成;KP和KI分别为PI控制器的比例系数和积分系数,vc和ac表示车当前的实际速度和加速度,vd是给出的期望速度,Δv是实际速度与期望速度的差,u是油门刹车命令;值函数模块根据当前车的实际速度、加速度和速度误差来计算每一个(KP,KI)向量的回报值,然后策略改进模块根据每一个(KP,KI)向量的回报值选出一个回报值最大的(KP,KI)向量,最后系数调整模块将PI控制器原来的系数替换成当前选出的最优系数。
CN201310328571.3A 2013-07-31 2013-07-31 基于近似策略迭代的自适应巡航控制方法 Active CN103381826B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310328571.3A CN103381826B (zh) 2013-07-31 2013-07-31 基于近似策略迭代的自适应巡航控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310328571.3A CN103381826B (zh) 2013-07-31 2013-07-31 基于近似策略迭代的自适应巡航控制方法

Publications (2)

Publication Number Publication Date
CN103381826A CN103381826A (zh) 2013-11-06
CN103381826B true CN103381826B (zh) 2016-03-09

Family

ID=49489817

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310328571.3A Active CN103381826B (zh) 2013-07-31 2013-07-31 基于近似策略迭代的自适应巡航控制方法

Country Status (1)

Country Link
CN (1) CN103381826B (zh)

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104932268A (zh) * 2015-06-08 2015-09-23 武汉理工大学 基于模糊pid的汽车巡航控制系统
CN107264528B (zh) * 2015-09-07 2019-08-02 重庆大学 汽车巡航智能控制方法
CN106919181A (zh) * 2016-10-20 2017-07-04 湖南大学 一种无人机避障方法
CN106338919B (zh) * 2016-11-02 2019-04-19 哈尔滨工程大学 基于增强学习型智能算法的无人艇航迹跟踪控制方法
CN106843231B (zh) * 2017-03-24 2020-06-16 广州汽车集团股份有限公司 无人驾驶汽车、无人驾驶汽车的控制方法及其控制装置
CN107169567B (zh) * 2017-03-30 2020-04-07 深圳先进技术研究院 一种用于车辆自动驾驶的决策网络模型的生成方法及装置
CN107065561B (zh) * 2017-05-16 2019-11-22 清华大学 两轮自平衡车的机器学习控制方法
JP6790258B2 (ja) * 2017-06-02 2020-12-02 本田技研工業株式会社 ポリシー生成装置及び車両
CN107943022B (zh) * 2017-10-23 2021-07-16 清华大学 一种基于强化学习的pid机车自动驾驶优化控制方法
CN108327718B (zh) * 2018-02-08 2019-11-19 汪勇 一种车辆自适应巡航控制系统及其控制方法
CN110378460B (zh) * 2018-04-13 2022-03-08 北京智行者科技有限公司 决策方法
CN108791302B (zh) * 2018-06-25 2020-05-19 大连大学 驾驶员行为建模系统
CN108819948B (zh) * 2018-06-25 2020-05-19 大连大学 基于逆向强化学习的驾驶员行为建模方法
CN108594858B (zh) * 2018-07-16 2020-10-27 河南大学 马尔科夫运动目标的无人机搜索方法及装置
CN109976340B (zh) * 2019-03-19 2022-02-08 中国人民解放军国防科技大学 一种基于深度增强学习的人机协同动态避障方法及系统
CN110001415B (zh) * 2019-04-11 2021-01-05 宁波工程学院 一种插电式混合动力车辆最优能耗的确定方法
CN110509922B (zh) * 2019-08-20 2020-09-11 一汽解放汽车有限公司 一种基于高精度地图的车辆预见巡航控制方法
CN111038504B (zh) * 2019-11-27 2021-11-02 苏州智加科技有限公司 车辆自适应巡航控制方法、装置、车辆及存储介质
CN110920631B (zh) * 2019-11-27 2021-02-12 北京三快在线科技有限公司 控制车辆的方法、装置、电子设备及可读存储介质
CN111071250B (zh) * 2019-12-30 2021-03-16 青岛创新奇智科技集团有限公司 一种基于梯度提升树的汽车定速巡航推荐方法
US11673584B2 (en) * 2020-04-15 2023-06-13 Baidu Usa Llc Bayesian Global optimization-based parameter tuning for vehicle motion controllers
CN112026766A (zh) * 2020-07-24 2020-12-04 义乌市深研智能科技有限公司 一种农用机械巡航切换的起步控制方法、装置及农用机械
CN113269278B (zh) * 2021-07-16 2021-11-09 广东众聚人工智能科技有限公司 基于领域翻转的机器人巡航目标识别方法及系统
CN116736748A (zh) * 2022-03-01 2023-09-12 腾讯科技(深圳)有限公司 构建机器人的控制器的方法和机器人
CN116736749A (zh) * 2022-03-01 2023-09-12 腾讯科技(深圳)有限公司 构建机器人的控制器的方法和机器人

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1733522A (zh) * 2004-05-14 2006-02-15 通用汽车公司 车辆加速度的限制
JP2007512989A (ja) * 2003-05-16 2007-05-24 ダイムラークライスラー・アクチェンゲゼルシャフト 自動車内における運転者の負荷を調整するための方法及び装置
EP1900588A1 (fr) * 2006-09-14 2008-03-19 Siemens VDO Automotive Procédé de détermination de paramètres optimaux de conduite et système d'aide à l'eco-conduite correspondant
CN201214410Y (zh) * 2007-12-29 2009-04-01 桂林吉星电子等平衡动力有限公司 一种油电混合动力电动车的速度巡航控制装置
CN101417655A (zh) * 2008-10-14 2009-04-29 清华大学 一种车辆多目标协调式自适应巡航控制方法
CN201816590U (zh) * 2010-02-08 2011-05-04 王佑夫 带有巡航功能的车用手控油门的控制系统
CN102398521A (zh) * 2010-09-14 2012-04-04 通用汽车环球科技运作有限责任公司 车辆扭矩控制的分频和独立限制

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10222843B4 (de) * 2001-05-23 2006-11-02 Lite-On Automotive Corp. Kontrollsystem für eine Fahrzeuggeschwindigkeits-Regeleinrichtung
US8483949B2 (en) * 2009-04-13 2013-07-09 Toyota Jidosha Kabushiki Kaisha Running pattern calculating apparatus and running pattern calculating method

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007512989A (ja) * 2003-05-16 2007-05-24 ダイムラークライスラー・アクチェンゲゼルシャフト 自動車内における運転者の負荷を調整するための方法及び装置
CN1733522A (zh) * 2004-05-14 2006-02-15 通用汽车公司 车辆加速度的限制
EP1900588A1 (fr) * 2006-09-14 2008-03-19 Siemens VDO Automotive Procédé de détermination de paramètres optimaux de conduite et système d'aide à l'eco-conduite correspondant
CN201214410Y (zh) * 2007-12-29 2009-04-01 桂林吉星电子等平衡动力有限公司 一种油电混合动力电动车的速度巡航控制装置
CN101417655A (zh) * 2008-10-14 2009-04-29 清华大学 一种车辆多目标协调式自适应巡航控制方法
CN201816590U (zh) * 2010-02-08 2011-05-04 王佑夫 带有巡航功能的车用手控油门的控制系统
CN102398521A (zh) * 2010-09-14 2012-04-04 通用汽车环球科技运作有限责任公司 车辆扭矩控制的分频和独立限制

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
汽车纵向控制系统的设计与研究;李果等;《自动化学报》;19960930;第22卷(第5期);正文第2、3节 *

Also Published As

Publication number Publication date
CN103381826A (zh) 2013-11-06

Similar Documents

Publication Publication Date Title
CN103381826B (zh) 基于近似策略迭代的自适应巡航控制方法
CN110806759B (zh) 一种基于深度强化学习的飞行器航线跟踪方法
CN101819041B (zh) 自进化anfis与ukf结合的gps/mems-ins组合定位误差动态预测方法
Wang et al. Self-learning cruise control using kernel-based least squares policy iteration
CN103324085A (zh) 基于监督式强化学习的最优控制方法
CN101871782B (zh) 基于set2fnn的gps/mems-ins组合导航系统定位误差预测方法
Kuutti et al. End-to-end reinforcement learning for autonomous longitudinal control using advantage actor critic with temporal context
Chen et al. Data-driven computation of robust control invariant sets with concurrent model selection
Santin et al. Cruise controller with fuel optimization based on adaptive nonlinear predictive control
CN116027669A (zh) 一种高速列车自适应滑模控制方法、系统及电子设备
Zheng et al. Varying Zonotopic tube RMPC with switching logic for lateral path tracking of autonomous vehicle
CN113391553B (zh) 具有执行器饱和的异构cacc系统的自适应最优控制方法
Zhu et al. Reinforcement learning based throttle and brake control for autonomous vehicle following
Zhang et al. A Novel Model Predictive Control Based Co-Optimization Strategy for Velocity Planning and Energy Management of Intelligent PHEVs
Banerjee et al. A survey on physics informed reinforcement learning: Review and open problems
Schepers et al. Autonomous building control using offline reinforcement learning
Kerbel et al. Driver assistance eco-driving and transmission control with deep reinforcement learning
Liu et al. Learning from demonstration: Situation-adaptive lane change trajectory planning for automated highway driving
CN116373846A (zh) 一种基于bp神经网络优化的后轮转向车辆稳定性控制方法
Guo et al. Modeling, learning and prediction of longitudinal behaviors of human-driven vehicles by incorporating internal human DecisionMaking process using inverse model predictive control
Williams et al. Approximate stochastic differential dynamic programming for hybrid vehicle energy management
Williams Real-Time Stochastic Predictive Control for Hybrid Vehicle Energy Management
Chen et al. Optimal control methods in intelligent vehicles
CN113762464A (zh) 一种基于学习的列车运行参考曲线动态生成方法
Sinha et al. Adaptive robust model predictive control via uncertainty cancellation

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20230926

Address after: 410073, 47, Chi Ting Street, Changsha, Hunan

Patentee after: National University of Defense Technology

Address before: Unmanned Systems Research Institute, School of Mechanical and Electrical Engineering and Automation, National University of Defense Science and Technology, People's Liberation Army, No. 47 Yanwachi Zhengjie, Changsha City, Hunan Province, 410073

Patentee before: NATIONAL University OF DEFENSE TECHNOLOGY

TR01 Transfer of patent right
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20131106

Assignee: HUNAN HANGTIAN CHENGYUAN PRECISION MACHINERY Co.,Ltd.

Assignor: National University of Defense Technology

Contract record no.: X2023980042937

Denomination of invention: Adaptive Cruise Control Method Based on Approximation Strategy Iteration

Granted publication date: 20160309

License type: Exclusive License

Record date: 20231008

EE01 Entry into force of recordation of patent licensing contract