CN109624986B - 一种基于模式切换的驾驶风格的学习巡航控制系统及方法 - Google Patents

一种基于模式切换的驾驶风格的学习巡航控制系统及方法 Download PDF

Info

Publication number
CN109624986B
CN109624986B CN201910077510.1A CN201910077510A CN109624986B CN 109624986 B CN109624986 B CN 109624986B CN 201910077510 A CN201910077510 A CN 201910077510A CN 109624986 B CN109624986 B CN 109624986B
Authority
CN
China
Prior art keywords
vehicle
learning
driving
state
driver
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910077510.1A
Other languages
English (en)
Other versions
CN109624986A (zh
Inventor
高炳钊
张羽翔
褚洪庆
郭露露
陈虹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jilin University
Original Assignee
Jilin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jilin University filed Critical Jilin University
Priority to CN201910077510.1A priority Critical patent/CN109624986B/zh
Publication of CN109624986A publication Critical patent/CN109624986A/zh
Application granted granted Critical
Publication of CN109624986B publication Critical patent/CN109624986B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W40/00Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models
    • B60W40/08Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models related to drivers or passengers
    • B60W40/09Driving style or behaviour
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W30/00Purposes of road vehicle drive control systems not related to the control of a particular sub-unit, e.g. of systems using conjoint control of vehicle sub-units
    • B60W30/14Adaptive cruise control
    • B60W30/143Speed control
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2510/00Input parameters relating to a particular sub-units
    • B60W2510/06Combustion engines, Gas turbines
    • B60W2510/0657Engine torque
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2510/00Input parameters relating to a particular sub-units
    • B60W2510/18Braking system
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2520/00Input parameters relating to overall vehicle dynamics
    • B60W2520/10Longitudinal speed
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2520/00Input parameters relating to overall vehicle dynamics
    • B60W2520/10Longitudinal speed
    • B60W2520/105Longitudinal acceleration
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2554/00Input parameters relating to objects
    • B60W2554/80Spatial relation or speed relative to objects
    • B60W2554/801Lateral distance
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2554/00Input parameters relating to objects
    • B60W2554/80Spatial relation or speed relative to objects
    • B60W2554/804Relative longitudinal speed

Landscapes

  • Engineering & Computer Science (AREA)
  • Automation & Control Theory (AREA)
  • Transportation (AREA)
  • Mechanical Engineering (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Feedback Control In General (AREA)
  • Control Of Driving Devices And Active Controlling Of Vehicle (AREA)

Abstract

本发明属于汽车智能辅助驾驶及汽车安全技术领域,具体的说是一种通过对特定驾驶员风格的模式切换及跟车行为自适应学习进行自适应巡航控制的基于模式切换的驾驶风格的学习巡航控制系统及方法。本发明将驾驶风格定义于不同跟车情况下驾驶员在定速巡航,加速接近,稳态跟车,快速制动几种模式间的切换策略,学习其驾驶风格,并在每种驾驶模式下使用基于连续状态的学习方法进一步学习其驾驶特性,该系统适用于L2级别自动驾驶车辆,目标是有效学习到驾驶员的驾驶风格特性,提高特定驾驶员在不同工况下对于自适应巡航系统的适应性及接受度。

Description

一种基于模式切换的驾驶风格的学习巡航控制系统及方法
技术领域
本发明属于汽车智能辅助驾驶及汽车安全技术领域,具体的说是一种通过对特定驾驶员风格的模式切换及跟车行为自适应学习进行自适应巡航控制的基于模式切换的驾驶风格的学习巡航控制系统及方法。
背景技术
随着车辆保有量不断增加,以及随之而来的交通事故的频发,智能驾驶辅助技术收到广泛关注并成为研究热点。车辆智能辅助驾驶系统(ADAS)能有效缓解驾驶员的疲劳感,在其适用工况内有效保证行车安全。其中典型的纵向智能辅助驾驶系统-自适应巡航控制系统发挥了重要作用,各种控制算法被应用于系统开发,如PID、模糊控制、线性二次型优化控制,模型预测控制等,以获得更好的性能。如申请号201810313067.9和申请号201710826862.3的专利使用模型预测控制方法改善跟车性能。但这些方法仍主要考虑的车辆跟随性能,如安全性、舒适性和经济性等几个方面。
随着车辆保有量不断增加,驾驶人群逐渐多样化,驾驶员人员由于年龄,性别,驾龄,职业等的差异,导致特定驾驶员驾驶风格有着显著的差异性。因此单一参数的自适应巡航控制器无法达到广泛的适应性和驾驶员的接受度,而此种适应性和接受度的下降可能减少驾驶员使用辅助驾驶系统的频率从而无法有效减少安全事故。当控制系统需要较好适应不同的特定驾驶员的驾驶风格时,系统应具有自学习能力。在不同的系统设计时,对驾驶风格的表征与定义会有所区别。一些研究中,根据车头时距的大小将驾驶员分为保守型、一般型、激进型。但人的驾驶习惯在驾驶过程中很难保持不变,并维持在固定车头时距,因此此种方法可能存在风格表征过于单一的情况,从而无法有效提高驾驶员对于系统的适应性及接受度。
发明内容
为了解决上述问题,本发明将驾驶风格定义于不同跟车情况下驾驶员在定速巡航,加速接近,稳态跟车,快速制动几种模式间的切换策略,学习其驾驶风格,并在每种驾驶模式下使用基于连续状态的学习方法进一步学习其驾驶特性,设计一种基于模式切换的驾驶风格学习的自适应学习巡航控制系统及方法。该系统适用于L2级别自动驾驶车辆,目标是有效学习到驾驶员的驾驶风格特性,提高特定驾驶员在不同工况下对于自适应巡航系统的适应性及接受度。可以看到,这是一个双层的学习架构,下层学习是基于连续状态及动作空间的学习问题,目前现有学习方法,由于驾驶特性位置,难以建立模型。因此,存在学习效率低的问题。为了更有效的进行学习,本发明还需对连续状态及动作空间的学习方法进行改进,以提高算法的学习效率。在此基础上,使用双层基于连续状态,离散及连续动作空间学习方法相组合的方法以更好优化系统性能。
本发明技术方案结合附图说明如下:
一种基于模式切换的驾驶风格的学习巡航控制系统,该系统包括智能感知及信号处理模块A、数据存储模块B、模式切换学习模块C、跟车特性学习模块D和车辆执行控制模块E;
所述的智能感知及信号处理模块A,用于获得当前车辆和前方车辆行驶状态信息,对前车驾驶意图识别,确定有限个加速度范围;
所述数据存储模块B,用于存储驾驶员驾驶数据;
所述的模式切换学习模块C,用于建立驾驶员马尔科夫模式切换决策模型,离线求解状态-动作值函数的权值向量;
所述的跟车特性学习模块D,用于根据驾驶员驾驶数据的跟车行为特性网络进行离线训练,并以比例k,k=0.5-0.7更新到理想跟车特性的初始动作神经网络中;
所述的车辆执行控制模块E,用于对控制量即加速度的跟踪,采用PID控制器即可实现对于加速度的执行。
所述的智能感知及信号处理模块A与模式切换学习模块C以及数据存储模块B相连;所述的数据存储模块B与模式切换学习模块C、跟车特性学习模块D相连;所述的模式切换学习模块C与跟车特性学习模块D相连,跟车特性学习模块D与车辆执行控制模块E相连。
所述的驾驶员驾驶数据包括前后车相对距离、前车车速、本车车速、本车加速度、驾驶员操作发动机力矩信号和制动操作车身制动减速度。
一种基于模式切换的驾驶风格的学习巡航控制系统的控制方法,该方法包括以下步骤:
步骤一、通过智能感知及信号处理模块A获得车辆控制算法所需的状态信息,包括:借助车载智能感知模块中车载摄像头、雷达环境感知元件确认前方待跟随车辆,并得到当前车辆和前方车辆行驶状态信息;并且根据前车车速计算得到加速度,作为状态输入;将得到的驾驶数据存储在数据存储模块B中。
步骤二、通过模式切换学习模块C建立驾驶员马尔科夫模式切换决策模型;基于车辆记录的驾驶员日常驾驶数据,包括前后车相对距离,前车车速,本车车速,本车加速度,发动机力矩,制动减速度,离线求解状态-动作值函数的权值向量;具体方法如下:
2.1)马尔科夫模式切换决策模型建立:驾驶员驾驶过程中不同模式间的切换表征特定驾驶员驾驶风格,将驾驶员切换模式决策建模为马尔科夫决策过程,确定描述驾驶工况的状态向量,构建相应的基函数;
2.2)基于强化学习的最优问题求解:使用数值逼近方法对状态-动作值函数的权值向量基于贝尔曼最优性方程迭代求解;根据驾驶员驾驶数据,使用数值逼近方法求解强化学习中状态-动作值函数的权值向量;
步骤三、通过跟车特性学习模块D针对特定驾驶员在每种驾驶模式下跟车行为特性的不同,基于强化学习中常见的Actor-Critic框架在连续状态空间及连续动作空间进一步在线学习;使用结合归一化评价方法和引导动作搜索的强化学习方法,提高算法效率及学习成功率,减少算法对于初始权值的依赖性;
步骤四、通过车辆执行控制模块D采用比例-积分-微分PID控制器实现对于决策量即加速度的执行。
所述的步骤2.1)的具体方法如下:
马尔科夫模式切换决策模型建立:系统将驾驶风格定义于不同跟车情况下驾驶员在定速巡航,加速接近,稳态跟车,快速制动几种模式间的切换策略;将驾驶员切换模式决策建模为马尔科夫决策过程,进而使用强化学习方法学习;强化学习是一种交互式学习方法,智能体在环境中采取动作获得回报,基于回报进行学习;马尔科夫决策过程建模包括状态,动作,回报函数的设计;智能体在当前状态根据策略采取动作,进行状态转移并得到回报;系统在跟车状态下,描述当前时刻k的驾驶工况的状态向量s(k)为:
s(k)={vh(k),Δv(k),Δx(k),L(k),A(k-1)} (1)
其中,vh(k)为k时刻本车车速,Δv(k)为k时刻相对车速,Δx(k)为k时刻相对距离,L(k)为k时刻前车驾驶意图,A(k-1)为k-1时刻的驾驶模式;
在非跟车状态下,描述驾驶工况的状态向量为:
s(k)={vh(k),vref(k)-vh(k),0,0,A(k-1)} (2)
其中,vh(k)为k时刻本车车速,vref(k)为k时刻驾驶员设定车速,A(k-1)为k-1时刻的驾驶模式;非跟车状态下,表示相对距离与前车驾驶意图的状态分量均为0;
动作A∈{1,2,3,4}表示在定速巡航,加速接近,稳态跟车,快速制动模式间切换的动作;根据驾驶员驾驶数据AD为驾驶员模式,Aπ为当前策略下学习算法输出的动作,则回报函数为:
Figure GDA0002755507750000031
所述的步骤2.2)的具体方法如下:
基于强化学习的最优问题求解:由于状态空间连续,使用表格型值函数无法表征状态-动作值函数,因此需要使用数值逼近方法对状态-动作值函数的权值向量基于贝尔曼最优性方程迭代求解;根据驾驶员的驾驶数据,使用数值逼近方法求解强化学习中状态-动作值函数的权值向量;具体使用基于核函数的最小二乘策略迭代算法对最优策略进行求解;首先使用基于核函数的稀疏化过程得到核字典,选择径向基函数作为核函数,可以表示为:
Figure GDA0002755507750000041
其中,<·,·>表示两个向量的内积,φ(s(i)),φ(s(j))是相应状态的基函数,可以表示为:
Figure GDA0002755507750000042
其中,m=A-1,A为当前动作,即仅有当前动作对应的基函数中的项为当前状态向量值,其他值为0;
因此,驾驶员驾驶样本集可以表示为M={s(1),s(2),...,s(k)},特征向量集为Φ={φ(s(1)),φ(s(2)),...,φ(s(k))};对特征向量集进行筛选,选取线性相关度大于阈值的特征向量加入核字典对状态值函数进行逼近;当核字典中已经包含t-1(1<t≤n)个特征向量时,n为已筛选的特征向量数,核字典可以表示为Dt-1={φ(s(j)),(j=1,2,...,t-1)};因此,当判断下一个特征向量是否应该加入核字典时,优化问题建立为:
Figure GDA0002755507750000043
其中,λ=[λ12,...,λt-1]为权值向量,式(7)的解为:
Figure GDA0002755507750000044
其中,λ=[λ12,...,λt-1]为权值向量,[Wt-1]i,j=κ(s(i),s(j))为t-1×t-1维矩阵,wtt=κ(s(t),s(t))为当前特征向量s(t)与自身的内积值,wt-1(s(t))=[κ(s(1),s(t)),κ(s(2),s(t)),...,κ(s(t-1),s(t))]T为字典中已有特征向量与当前特征向量s(t)的内积t-1维列向量;如果ξt>μ,μ为阈值,则该特征向量被加入核词典中,反之,则不加入;直到所有的样本被测试过;
然后,强化学习中的状态-动作值函数被评估,使用核词典中的特征向量进行线性逼近,其可以表示为:
Figure GDA0002755507750000051
其中,
Figure GDA0002755507750000052
为状态s(i)的状态-动作值函数估计值,α=(α12,...,αt)是权重向量;φ(s(i))为状态s(i)的基函数表达,φ(s(j))为状态为s(j)且在字典中的特征向量;最终对所有样本数据筛选得到t维字典;
然后,对所有样本迭代更新求解,线性逼近参数;对第ii时刻样本s(ii)以及第ii+1时刻样本s(ii+1),增量式迭代更新方程为:
Figure GDA0002755507750000053
其中,w(s(ii)),w(s(ii+1))分别为s(ii),s(ii+1)与字典中的特征向量计算得到的t维向量;Aii-1,Aii为t*t维矩阵分别对应前后两次迭代更新时矩阵A的值,bii-1,bii为t维列向量分别对应前后两次迭代更新时向量b的值;αii为ii样本迭代计算后估计状态-动作值函数的线性逼近权重向量;则状态-动作值函数的估计值为
Figure GDA0002755507750000054
s为状态量,a为采取的动作值;策略改进中,更新后的策略可以表示为:
Figure GDA0002755507750000055
迭代持续到数据集内所有的样本状态与动作与当前策略所得到的动作相同,则算法收敛结束;
具体计算过程如下:
步骤(1):初始化,得到当前驾驶员驾驶样本集M={s(1),s(2),...,s(k)},定义使用的核函数κ(s(i),s(j)),并初始化空核字典D0,阈值μ;
步骤(2):稀疏化,对数据集中每个样本进行循环计算式(8),如果ξt>μ,μ为阈值,将当前特征向量加入字典;否则,继续下一样本计算,直到遍历所有样本;
步骤(3):确定核字典后,进行强化学习策略迭代求解,初始化矩阵A,向量b,权值向量α;
步骤(4):对数据集中每个样本计算式(10),以进行迭代更新,直到数据集内策略与当前网络策略一致;
步骤(5):输出权值向量α。
所述的步骤三的具体方法如下:
针对特定驾驶员在每种驾驶模式下跟车行为特性不同,且特定驾驶员可能存在不规范或危险驾驶习惯的情况,因此系统也须纠正驾驶员的不恰当的驾驶行为;在系统设计阶段,设定每一模式下较为标准的驾驶的跟车行为特性参数;其参数初值根据标准驾驶数据进行训练,或人为标定;在系统未开启的状态下,在模式切换学习模块学习及时模式切换决策的同时,也在每一模式下,根据以上所述驾驶员驾驶数据的跟车行为特性网络进行离线训练,并以一定比例k,k=0.5-0.7更新到理想跟车特性的初始动作神经网络中;持续在系统关闭阶段采集驾驶数据,更新动作网络;系统开启阶段在线学习;以此种方式,在标准驾驶模式与个性驾驶行为学习中平衡学习;提出基于强化学习的Actor-Critic框架结合归一化评价方法和引导动作搜索的强化学习方法在连续状态空间及连续动作空间学习方法进行在线学习;因此使用结合归一化评价方法和引导动作搜索的强化学习方法,提高算法效率及学习成功率,减少算法对于初始权值的依赖性;具体方法如下:
3.1)结合归一化评价方法和引导动作搜索的强化学习方法:对于不同问题,其期望值所处范围变化较大,需要有针对性的设计回报函数中误差信号的增益,采用归一化的评价方法,简化算法设计,有利于控制器参数的调整;同时,使用历史动作回报引导动作搜索,确保每次策略更新方向的正确性,从而提高算法效率及学习成功率,减少算法对于初始权值的依赖性;使用神经网络对策略函数与状态值函数进行逼近,基于强化学习中的AC框架;同时综合动作的搜索与利用,则动作选择可以用正态函数表示为:
Figure GDA0002755507750000061
其中,s为状态量,a为动作值,θ为动作网络权值,μ(s;θ)为网络输出的动作均值,σ为动作选择方差;使用时序差分方法作为误差信号对进行计算,这里使用多步预测的时序差分方法计算误差信号,同时此种误差估计方式也可以用于多车异步训练提高训练速度;优势函数可以表示为:
Figure GDA0002755507750000071
其中,γ∈(0,1)表示折扣函数;V(s(k)),V(s(t+k))分别为状态s(t),s(t+k)的状态值函数。rt+i为t+i时刻回报值;
下面对状态量进行归一化处理,假设在状态s时,实际量和期望量为x和x*,下一时刻状态s'时,实际量和状态量为x'和x'*;使用x和x*分别为归一化的上界和下界,则变量x,x*,x',x'*归一化后对应的变量y,y*,y',y'*可以表示为:
y=1,y*=0,
Figure GDA0002755507750000072
因此评价信号可以表示为:
Figure GDA0002755507750000073
其中,
Figure GDA0002755507750000074
y=min(y'*,1),m为常数参数;
对于跟踪问题而言,归一化后问题被统一为y'达到零点;由于初始权值的随机性,式(13)无法准确估计误差信号,因此使用归一化的评价作为监督信号,若二者符号相同,则使用式(13)作为误差信号估计,否则使用评价信号进行更新;此种情况下评价信号表示为:
Figure GDA0002755507750000075
具体计算过程如下:
步骤(1):初始化:动作网络权值θ,值函数网络权值w及对应初始学习率,批量样本数n,最大步数N;
步骤(2):初始化环境;
步骤(3):在环境中批量样本数n中,得到当前状态,动作,回报,执行状态转移;
步骤(4):如果状态未达终态或到达最大步数,重复步骤(3),直到达到批量样本数n;
步骤(5):计算
Figure GDA0002755507750000076
步骤(6):在批量样本中,由后向前循环计算R=ri+γR以及评价信号d和优势函数At;如果,sign(d)==sign(At),更新
Figure GDA0002755507750000081
否则,更新
Figure GDA0002755507750000082
步骤(7):判断策略是否收敛,如果不收敛,则重复步骤(2)-(5)。直到策略收敛。
3.2)强化学习跟车特性系统建立:在系统设计阶段,设定每一模式下较为标准的驾驶的跟车行为特性参数,通过仿真环境中在线的学习系统学习得到车载控制器的系统参数初值;并以一定比例k,k=0.5-0.7更新到动作神经网络中;其参数初值根据标准驾驶数据进行训练,或人为标定;在在线学习阶段,进一步使用结合归一化评价方法和引导动作搜索的强化学习方法,跟车特性学习模块再进行在线学习逐步对控制器向标准跟车模式更新,逐步影响驾驶员的驾驶习性;并持续在系统关闭阶段采集驾驶数据,更新动作网络;系统开启阶段在线学习。以此种方式,在标准驾驶模式与个性驾驶行为学习中平衡学习,使得系统与驾驶员更好的融合,具体实施过程为:
马尔科夫决策过程使用相似的设计,跟车以及非跟车状态下的状态分别为:
Figure GDA0002755507750000083
其中,跟车状态下,vh(k)为k时刻本车车速,Δv(k)为k时刻相对车速,Δx(k)为k时刻相对距离,L(k)为k时刻前车驾驶意图,TH(k)=Δx(k)/v1(k)为车头时距,ΔTH(k)=THtar(k)-TH(k)为期望时距与当前时距之差;THtar(k)为根据当前驾驶员的驾驶风格确定的跟车时距;非跟车状态下,TH(k)=THtar(k)+c(vset(k)-vh(k));c=0.1为一系统设定常数;动作量为加速度,回报为:
Figure GDA0002755507750000084
其中,vref(k)为k时刻的期望速度,vh(k)为k时刻本车车速,Δx(k)为k时刻相对距离,Δxcra碰撞发生时的距离,TH(k)=Δx(k)/v1(k)为车头时距,THmax为最大跟车时距,超过此最大跟车时距认定跟车任务失败;
跟车状态下,我们将对于时距的跟踪问题转化为速度的跟踪问题,当前时刻的期望速度vref(k),vref(k)由上一时刻的状态量决定,可表示为:
Figure GDA0002755507750000091
其中,Δx(k-1)为k-1时刻相对距离,d0为安全距离,ΔT=Δt*n,Δt为系统的控制周期,n=10为一常数,sl=(vl(k-1)+vl(k))/2*ΔT,vl(k-1),vl(k)为前方车辆在k,k-1时刻的速度,vh(k-1)为k-1时刻本车车速,THtar(k)为根据当前驾驶员的驾驶风格确定的跟车时距,h∈(0,1)为一系统固定参数;非跟车状态下,vref(k)=vset(k);
接着对评价函数进行归一化,得到
Figure GDA0002755507750000092
相应的上下界为
Figure GDA0002755507750000093
因此评价信号为:
Figure GDA0002755507750000094
其中,m为常数参数;而当评价信号为负时,临近的与其搜索方向相反状态下的dbase=vh(k)-vh(k-1)作为基准被加入到评价信号中进一步帮助判断动作搜索的正确方向;vh(k-1),vh(k)为k-1,k时刻本车车速;
策略网络和状态值函数网络使用神经网络作为函数逼近器,被表示为:
Figure GDA0002755507750000095
其中,
Figure GDA0002755507750000096
分别为动作网络和状态值函数网络第l层第j个神经元输出值,
Figure GDA0002755507750000097
代表激活函数,
Figure GDA0002755507750000098
分别代表动作网络和状态值函数网络第l层第j个神经元和第l-1层第i个神经元之间的权值系数,
Figure GDA0002755507750000099
分别为动作网络和状态值函数网络第l-1层第j个神经元输出值,
Figure GDA0002755507750000101
分别为动作网络和状态值函数网络第l层第j个神经元偏置值;
在第l层神经网络,基于链式法则及反向传播方式,网络权重及偏置的更新过程被表示为:
Figure GDA0002755507750000102
其中,
Figure GDA0002755507750000103
Figure GDA0002755507750000104
dω分别为网络第l层第j个神经元和第l-1层第i个神经元之间的权值系数和其改变值,
Figure GDA0002755507750000105
为第l层到第l+1层神经元之间权值系数向量,
Figure GDA0002755507750000106
为第l-1层第i个神经元的输出值,
Figure GDA0002755507750000107
为网络第l层第j个神经元偏置值和其改变值,δl,
Figure GDA0002755507750000108
分别表示第l层的偏差向量和第l层第j个神经元的偏差,激活函数
Figure GDA0002755507750000109
在输入层和输出层均选取双曲正切函数。
步骤一中所述的当前车辆和前方车辆行驶状态信息包括当前车辆与前方车辆的速度信息和相对车距信息。
本发明的有益效果为:
1.使用模糊逻辑方法在实车环境下确定有限个加速度范围对驾驶意图进行识别;
2.驾驶模式切换表征驾驶风格,建立驾驶员马尔科夫模式切换决策模型,使用离线强化学习方法基于驾驶数据学习。
3.在模式切换的基础上,对每种模式跟车特性在线学习。此种在线学习系统可在高精度仿真软件中训练,并直接在实车环境下验证。
4.提出结合归一化评价方法和引导动作搜索的强化学习方法,提高在连续状态空间及连续动作空间问题的学习效率。
附图说明
图1为本发明的系统结构框图;
图2为本发明的系统的总体流程示意图;
图3为驾驶意图识别模块图;
图4a为加速度隶属度函数
图4b为加速度变化率隶属度函数图;
图5为评价函数简图;
图6为强化学习在线学习跟车系统框图;
图7为结合归一化评价方法和引导动作搜索的强化学习算法简图;
具体实施方式
为了使得系统能学习得到多种工况下的驾驶员驾驶风格,具有更好的自适应跟车系统性能,提高特定驾驶员对于自适应巡航系统的接受度。本发明提出基于模式切换的驾驶风格学习的自适应学习巡航控制系统,该系统考虑特定驾驶员驾驶风格,将风格定义为不同跟车情况下驾驶员在定速巡航,加速接近,稳态跟车,快速制动几种模式间的切换策略及各个策略下的跟车特性。系统包含多个子模块,分别为智能感知及信号处理模块A、数据存储模块B、模式切换学习模块C、跟车特性学习模块D和车辆执行控制模块E。
一种基于模式切换的驾驶风格学习的自适应学习巡航控制系统,其结构框图如图1所示,主要包括:智能感知及信号处理模块A、数据存储模块B、模式切换学习模块C、跟车特性学习模块D和车辆执行控制模块E。其中智能感知及信号处理模块A通过车载摄像头,雷达环境感知元件,感知元件内部的融合识别方法得到当前车辆和前方车辆行驶状态信息;并通过速度,加速度,加速度变化率信号使用模糊逻辑方法利用对驾驶意图进行识别确定有限个加速度范围。数据存储模块B,从车身CAN总线中通过车辆网关直接得到信息,包括前后车相对距离,前车车速,本车车速,本车加速度,驾驶员操作发动机力矩信号,制动操作车身制动减速度信息。模式切换学习模块C,建立驾驶员马尔科夫模式切换决策模型,基于以上所述驾驶数据,离线求解状态-动作值函数的权值向量;跟车特性学习模块D,在模式切换学习模块学习及时模式切换决策的同时,也在每一模式下,根据以上所述驾驶员驾驶数据的跟车行为特性网络进行离线训练,并以一定比例k(k=0.5-0.7)更新到理想跟车特性的初始动作神经网络中。提出基于强化学习的Actor-Critic框架结合归一化评价方法和引导动作搜索的强化学习方法在连续状态空间及连续动作空间学习方法,在系统开启后,缓慢学习理想的跟车行为。持续在系统关闭阶段采集驾驶数据,更新动作网络;系统开启阶段在线学习。以此种方式,在标准驾驶模式与个性驾驶行为学习中平衡学习。在结构框图图1中,给出了本系统各个模块的系统模块关系。智能感知及信号处理模块A与模式切换学习模块C以及数据存储模块B相连;数据存储模块B与模式切换学习模块C、跟车特性学习模块D相连;模式切换学习模块C与跟车特性学习模块D相连,跟车特性学习模块D与车辆执行控制模块E相连。
在此基础上,图2给出了本发明的整体技术方案流程图,具体实施过程为:
如图1、图2所示,智能感知及信号处理模块A常开,获得当前车辆和前方车辆行驶状态信息,对前车驾驶意图识别。系统操纵状态关闭时,驾驶员操纵车辆,输入操作值,系统储存驾驶员驾驶数据,直到数据量满足训练要求大小。模式切换学习模块C离线学习跟车模式切换策略,跟车特性学习模块D学习每种模式下跟车行为特性,并以一定比例k(k=0.5-0.7)更新到动作神经网络中。其参数初值可根据标准驾驶数据进行训练,或人为标定。在在线学习阶段,进一步使用结合归一化评价方法和引导动作搜索的强化学习方法,跟车特性学习模块再进行在线学习逐步对控制器向标准跟车模式更新,逐步影响驾驶员的驾驶习性。并持续在系统关闭阶段采集驾驶数据,更新动作网络;系统开启阶段在线学习。以此种方式,在标准驾驶模式与个性驾驶行为学习中平衡学习,使得系统与驾驶员更好的融合。
本发明具有驾驶风格自学习能力的自适应巡航控制系统的各模块具体工作过程如下:
步骤一、智能感知及信号处理模块A需要获得车辆控制算法所需的状态信息,包括:借助车载智能感知模块中车载摄像头,雷达环境感知元件,通过内部融合识别方法确认前方待跟随车辆,并得到当前车辆和前方车辆行驶状态信息,包括当前车辆与前方车辆的速度信息、相对车距信息;通过CAN总线读取本车车速,发动机力矩,制动减速度这些状态信息。特殊地,驾驶风格学习模块需要根据前车车速计算得到加速度,作为状态输入。由于在实车环境下,由于传感器误差等因素加速度波动较大,因此可以使用模糊逻辑方法识别猛加速(A),正常加减速(N),猛减速(D)三个驾驶意图。驾驶意图识别模块如图3所示。在模糊逻辑算法中,使用常用的Mamdani型模糊逻辑,图4a和图4b为加速度和加速度变化率的隶属度函数,模糊规则采用代数加权和方式,加速度和加速度变化率的权值系数分别为0.6,0.4。最终清晰化方式为最大隶属度函数中取大。得到的驾驶数据存储在数据存储模块B中。
步骤二、模式切换学习模块C建立驾驶员马尔科夫模式切换决策模型;基于车辆记录的驾驶员日常驾驶数据,包括前后车相对距离,前车车速,本车车速,本车加速度,发动机力矩,制动减速度,离线求解状态-动作值函数的权值向量。包括以下部分:
2.1)马尔科夫模式切换决策模型建立:系统将驾驶风格定义于不同跟车情况下驾驶员在定速巡航,加速接近,稳态跟车,快速制动几种模式间的切换策略;将驾驶员切换模式决策建模为马尔科夫决策过程,进而使用强化学习方法学习。强化学习是一种交互式学习方法,智能体在环境中采取动作获得回报,基于回报进行学习。一般情况下,马尔科夫决策过程建模包括状态,动作,回报函数的设计。智能体在当前状态根据策略采取动作,进行状态转移并得到回报。系统在跟车状态下,描述当前时刻k的驾驶工况的状态向量s(k)为:
s(k)={vh(k),Δv(k),Δx(k),L(k),A(k-1)} (1)
其中vh(k)为k时刻本车车速,Δv(k)为k时刻相对车速,Δx(k)为k时刻相对距离,L(k)为k时刻前车驾驶意图,A(k-1)为k-1时刻的驾驶模式,在非跟车状态下,描述驾驶工况的状态向量为:
s(k)={vh(k),vref(k)-vh(k),0,0,A(k-1)} (2)
其中,vh(k)为k时刻本车车速,vref(k)为k时刻驾驶员设定车速,A(k-1)为k-1时刻的驾驶模式。非跟车状态下,表示相对距离与前车驾驶意图的状态分量均为0。
动作A∈{1,2,3,4}表示在定速巡航,加速接近,稳态跟车,快速制动模式间切换的动作。根据驾驶员驾驶数据AD为驾驶员模式,Aπ为当前策略下学习算法输出的动作,则回报函数为:
Figure GDA0002755507750000131
2.2)基于强化学习的最优问题求解:由于状态空间连续,使用表格型值函数无法表征状态-动作值函数,因此需要使用数值逼近方法对状态-动作值函数的权值向量基于贝尔曼最优性方程迭代求解。根据驾驶员的驾驶数据,使用数值逼近方法求解强化学习中状态-动作值函数的权值向量。这里使用基于核函数的最小二乘策略迭代算法对最优策略进行求解。首先使用基于核函数的稀疏化过程得到核字典。选择径向基函数作为核函数,可以表示为:
Figure GDA0002755507750000132
其中,<·,·>表示两个向量的内积,φ(s(i)),φ(s(j))是相应状态的基函数,可以表示为:
Figure GDA0002755507750000133
其中,m=A-1,A为当前动作,即仅有当前动作对应的基函数中的项为当前状态向量值,其他值为0。例如,当动作A=1时,其基函数可以表示为:
Figure GDA0002755507750000134
因此,驾驶员驾驶样本集可以表示为M={s(1),s(2),...,s(k)},特征向量集为Φ={φ(s(1)),φ(s(2)),...,φ(s(k))}。对特征向量集进行筛选,选取线性相关度大于阈值的特征向量加入核字典对状态值函数进行逼近。当核字典中已经包含t-1(1<t≤n)个特征向量时,n为已筛选的特征向量数,核字典可以表示为Dt-1={φ(s(j)),(j=1,2,...,t-1)}。因此,当判断下一个特征向量是否应该加入核字典时,优化问题建立为:
Figure GDA0002755507750000141
其中,λ=[λ12,...,λt-1]为权值向量,式(7)的解为:
Figure GDA0002755507750000142
其中,λ=[λ12,...,λt-1]为权值向量,[Wt-1]i,j=κ(s(i),s(j))为t-1×t-1维矩阵,wtt=κ(s(t),s(t))为当前特征向量s(t)与自身的内积值,wt-1(s(t))=[κ(s(1),s(t)),κ(s(2),s(t)),...,κ(s(t-1),s(t))]T为字典中已有特征向量与当前特征向量s(t)的内积t-1维列向量。如果ξt>μ,μ为阈值,则该特征向量被加入核词典中,反之,则不加入。直到所有的样本被测试过。
然后,强化学习中的状态-动作值函数被评估,使用核词典中的特征向量进行线性逼近,其可以表示为:
Figure GDA0002755507750000143
其中,
Figure GDA0002755507750000144
为状态s(i)的状态-动作值函数估计值,α=(α12,...,αt)是权重向量。φ(s(i))为状态s(i)的基函数表达,φ(s(j))为状态为s(j)且在字典中的特征向量。最终对所有样本数据筛选得到t维字典。
然后,对所有样本迭代更新求解,线性逼近参数。对第ii时刻样本s(ii)以及第ii+1时刻样本s(ii+1),增量式迭代更新方程为:
Figure GDA0002755507750000145
其中,w(s(ii)),w(s(ii+1))分别为s(ii),s(ii+1)与字典中的特征向量计算得到的t维向量。Aii-1,Aii为t*t维矩阵分别对应前后两次迭代更新时矩阵A的值,bii-1,bii为t维列向量分别对应前后两次迭代更新时向量b的值。αii为ii样本迭代计算后估计状态-动作值函数的线性逼近权重向量。则状态-动作值函数的估计值为
Figure GDA0002755507750000146
s为状态量,a为采取的动作值;策略改进中,更新后的策略可以表示为:
Figure GDA0002755507750000151
迭代持续到数据集内所有的样本状态与动作与当前策略所得到的动作相同,则算法收敛结束。
本模块的具体计算过程如下所述。
步骤(1):初始化,得到当前驾驶员驾驶样本集M={s(1),s(2),...,s(k)},定义使用的核函数κ(s(i),s(j)),并初始化空核字典D0,阈值μ;
步骤(2):稀疏化,对数据集中每个样本进行循环计算式(8),如果ξt>μ,μ为阈值,将当前特征向量加入字典;否则,继续下一样本计算,直到遍历所有样本。
步骤(3):确定核字典后,进行强化学习策略迭代求解,初始化矩阵A,向量b,权重向量α。
步骤(4):对数据集中每个样本计算式(10),以进行迭代更新,直到数据集内策略与当前网络策略一致。
步骤(5):输出权重向量α。
步骤三、跟车特性学习模块D,针对特定驾驶员在每种驾驶模式下跟车行为特性不同,且特定驾驶员可能存在不规范或危险驾驶习惯的情况,因此系统也须纠正驾驶员的不恰当的驾驶行为。在系统设计阶段,设定每一模式下较为标准的驾驶的跟车行为特性参数。其参数初值可根据标准驾驶数据进行训练,或人为标定。在系统未开启的状态下,在模式切换学习模块学习及时模式切换决策的同时,也在每一模式下,根据以上所述驾驶员驾驶数据的跟车行为特性网络进行离线训练,并以一定比例k(k=0.5-0.7)更新到理想跟车特性的初始动作神经网络中。持续在系统关闭阶段采集驾驶数据,更新动作网络;系统开启阶段在线学习。以此种方式,在标准驾驶模式与个性驾驶行为学习中平衡学习。提出基于强化学习的Actor-Critic框架结合归一化评价方法和引导动作搜索的强化学习方法在连续状态空间及连续动作空间学习方法进行在线学习;因此提出结合归一化评价方法和引导动作搜索的强化学习方法,提高算法效率及学习成功率,减少算法对于初始权重的依赖性,包括以下工作过程:
3.1)参阅图7,结合归一化评价方法和引导动作搜索的强化学习方法的提出:对于不同问题,其期望值所处范围变化较大,需要有针对性的设计回报函数中误差信号的增益,采用归一化的评价方法,可简化算法设计,同时有利于控制器参数的调整。同时,使用历史动作回报引导动作搜索,确保每次策略更新方向的正确性,从而提高算法效率及学习成功率,减少算法对于初始权重的依赖性。这里使用神经网络对策略函数与状态值函数进行逼近,基于强化学习中的AC框架。同时综合动作的搜索与利用,则动作选择可以用正态函数表示为:
Figure GDA0002755507750000161
其中,s为状态量,a为动作值,θ为动作网络权重,μ(s;θ)为网络输出的动作均值,σ为动作选择方差。通常情况下使用时序差分方法作为误差信号对进行计算,这里使用多步预测的时序差分方法计算误差信号,同时此种误差估计方式也可以用于多车异步训练提高训练速度。优势函数可以表示为:
Figure GDA0002755507750000162
其中,γ∈(0,1)表示折扣函数。V(s(k)),V(s(t+k))分别为状态s(t),s(t+k)的状态值函数。rt+i为t+i时刻回报值。
下面对状态量进行归一化处理,假设在状态s时,实际量和期望量为x和x*,下一时刻状态s'时,实际量和状态量为x'和x'*。使用x和x*分别为归一化的上界和下界,则变量x,x*,x',x'*归一化后对应的变量y,y*,y',y'*可以表示为:
y=1,y*=0,
Figure GDA0002755507750000163
因此评价信号可以表示为:
Figure GDA0002755507750000164
其中,
Figure GDA0002755507750000165
y=min(y'*,1)。m为常数参数。此评价函数的可视化形式如图4所示。对于跟踪问题而言,归一化后问题被统一为y'达到零点。由于初始权重的随机性,式(13)可能无法准确估计误差信号,因此使用归一化的评价作为监督信号,若二者符号相同,则使用式(13)作为误差信号估计,否则使用评价信号进行更新。此种情况下评价信号可以表示为:
Figure GDA0002755507750000171
其具体计算过程如下所述:
步骤(1):初始化:策略网络权重θ,值函数网络权重w及对应初始学习率,批量样本数n,最大步数N;
步骤(2):初始化环境;
步骤(3):在环境中批量样本数n中,得到当前状态,动作,回报,执行状态转移;
步骤(4):如果状态未达终态或到达最大步数,重复步骤(3),直到达到批量样本数n;
步骤(5):计算
Figure GDA0002755507750000172
步骤(6):在批量样本中,由后向前循环计算R=ri+γR以及评价信号d和优势函数At。如果,sign(d)==sign(At),更新
Figure GDA0002755507750000173
否则,更新
Figure GDA0002755507750000174
步骤(7):判断策略是否收敛,如果不收敛,则重复步骤(2)-(5)。直到策略收敛。
同时,由于在无模型的强化学习方法中,只有实际作用于被控对象的动作才能被评估,且连续空间的动作维数巨大,为提高算法效率,这里在控制的较短时域内假设系统状态不发生加大变化,使用历史动作的回报帮助判断当前动作回报,引导智能体在动作空间内搜索动作。
3.2)强化学习跟车特性系统建立:强化学习在线学习跟车系统框图如图5所示,在系统设计阶段,设定每一模式下较为标准的驾驶的跟车行为特性参数,通过仿真环境中在线的学习系统学习得到车载控制器的系统参数初值。并以一定比例k(k=0.5-0.7)更新到动作神经网络中。其参数初值可根据标准驾驶数据进行训练,或人为标定。在在线学习阶段,进一步使用结合归一化评价方法和引导动作搜索的强化学习方法,跟车特性学习模块再进行在线学习逐步对控制器向标准跟车模式更新,逐步影响驾驶员的驾驶习性。并持续在系统关闭阶段采集驾驶数据,更新动作网络;系统开启阶段在线学习。以此种方式,在标准驾驶模式与个性驾驶行为学习中平衡学习,使得系统与驾驶员更好的融合,具体实施过程为:
马尔科夫决策过程使用相似的设计,跟车以及非跟车状态下的状态分别为:
Figure GDA0002755507750000181
其中,跟车状态下,vh(k)为k时刻本车车速,Δv(k)为k时刻相对车速,Δx(k)为k时刻相对距离,L(k)为k时刻前车驾驶意图,TH(k)=Δx(k)/v1(k)为车头时距,ΔTH(k)=THtar(k)-TH(k)为期望时距与当前时距之差。THtar(k)为根据当前驾驶员的驾驶风格确定的跟车时距。非跟车状态下,TH(k)=THtar(k)+c(vset(k)-vh(k))。c=0.1为一系统设定常数。动作量为加速度,回报为:
Figure GDA0002755507750000182
其中,vref(k)为k时刻的期望速度,vh(k)为k时刻本车车速,Δx(k)为k时刻相对距离,Δxcra碰撞发生时的距离,TH(k)=Δx(k)/v1(k)为车头时距,THmax为最大跟车时距,超过此最大跟车时距认定跟车任务失败;
跟车状态下,我们将对于时距的跟踪问题转化为速度的跟踪问题,当前时刻的期望速度vref(k),vref(k)由上一时刻的状态量决定,可表示为:
Figure GDA0002755507750000183
其中,Δx(k-1)为k-1时刻相对距离,d0为安全距离,ΔT=Δt*n,Δt为系统的控制周期,n=10为一常数,sl=(vl(k-1)+vl(k))/2*ΔT,vl(k-1),vl(k)为前方车辆在k,k-1时刻的速度,vh(k-1)为k-1时刻本车车速,THtar(k)为根据当前驾驶员的驾驶风格确定的跟车时距,h∈(0,1)为一系统固定参数。非跟车状态下,vref(k)=vset(k)。
接着对评价函数进行归一化,得到
Figure GDA0002755507750000184
相应的上下界为
Figure GDA0002755507750000185
因此评价信号为:
Figure GDA0002755507750000191
m为常数参数。而当评价信号为负时,临近的与其搜索方向相反状态下的dbase=vh(k)-vh(k-1)作为基准被加入到评价信号中进一步帮助判断动作搜索的正确方向。vh(k-1),vh(k)为k-1,k时刻本车车速。
策略网络和状态值函数网络使用神经网络作为函数逼近器,可以被表示为:
Figure GDA0002755507750000192
其中
Figure GDA0002755507750000193
分别为动作网络和状态值函数网络第l层第j个神经元输出值,
Figure GDA0002755507750000194
代表激活函数,
Figure GDA0002755507750000195
分别代表动作网络和状态值函数网络第l层第j个神经元和第l-1层第i个神经元之间的权重系数,
Figure GDA0002755507750000196
分别为动作网络和状态值函数网络第l-1层第j个神经元输出值,
Figure GDA0002755507750000197
分别为动作网络和状态值函数网络第l层第j个神经元偏置值。
在第l层神经网络,基于链式法则及反向传播方式,网络权重及偏置的更新过程可以被表示为:
Figure GDA0002755507750000198
其中,
Figure GDA0002755507750000199
Figure GDA00027555077500001910
dω分别为网络第l层第j个神经元和第l-1层第i个神经元之间的权重系数和其改变值,
Figure GDA00027555077500001911
为第l层到第l+1层神经元之间权重系数向量,
Figure GDA00027555077500001912
为第l-1层第i个神经元的输出值。
Figure GDA00027555077500001913
为网络第l层第j个神经元偏置值和其改变值。δl,
Figure GDA00027555077500001914
分别表示第l层的偏差向量和第l层第j个神经元的偏差。激活函数
Figure GDA00027555077500001915
在输入层和输出层均选取双曲正切函数。算法的整体框图如图6所示。
步骤四、通过车辆执行控制模块D采用比例-积分-微分PID控制器实现对于决策量即加速度的执行。

Claims (3)

1.一种基于模式切换的驾驶风格的学习巡航控制系统的控制方法,其特征在于,基于模式切换的驾驶风格的学习巡航控制系统的控制方法通过控制系统实现,所述系统包括智能感知及信号处理模块(A)、数据存储模块(B)、模式切换学习模块(C)、跟车特性学习模块(D)和车辆执行控制模块(E);
所述的智能感知及信号处理模块(A),用于获得当前车辆和前方车辆行驶状态信息,对前车驾驶意图识别,确定有限个加速度范围;
所述数据存储模块(B),用于存储驾驶员驾驶数据;
所述的模式切换学习模块(C),用于建立驾驶员马尔科夫模式切换决策模型,离线求解状态-动作值函数的权重向量;
所述的跟车特性学习模块(D),用于根据驾驶员驾驶数据的跟车行为特性网络进行离线训练,并以比例k,k=0.5-0.7更新到理想跟车特性的初始动作神经网络中;
所述的车辆执行控制模块(E),用于对控制量即加速度的跟踪,采用PID控制器即可实现对于加速度的执行;
所述的智能感知及信号处理模块(A)与模式切换学习模块(C)以及数据存储模块(B)相连;所述的数据存储模块(B)与模式切换学习模块(C)、跟车特性学习模块(D)相连;所述的模式切换学习模块(C)与跟车特性学习模块(D)相连,跟车特性学习模块(D)与车辆执行控制模块(E)相连;
该方法包括以下步骤:
步骤一、通过智能感知及信号处理模块(A)获得车辆控制算法所需的状态信息,包括:借助车载智能感知模块中车载摄像头、雷达环境感知元件确认前方待跟随车辆,并得到当前车辆和前方车辆行驶状态信息;并且根据前车车速计算得到加速度,作为状态输入;将得到的驾驶数据存储在数据存储模块(B)中;
步骤二、通过模式切换学习模块(C)建立驾驶员马尔科夫模式切换决策模型;基于车辆记录的驾驶员日常驾驶数据,包括前后车相对距离,前车车速,本车车速,本车加速度,发动机力矩,制动减速度,离线求解状态-动作值函数的权重向量;具体方法如下:
2.1)马尔科夫模型切换决策模型建立:驾驶员驾驶过程中不同模式间的切换表征特定驾驶员驾驶风格,将驾驶员切换模式决策建模为马尔科夫决策过程,确定描述驾驶工况的状态向量,构建相应的基函数;
马尔科夫模式切换决策模型建立:系统将驾驶风格定义于不同跟车情况下驾驶员在定速巡航,加速接近,稳态跟车,快速制动几种模式间的切换策略;将驾驶员切换模式决策建模为马尔科夫决策过程,进而使用强化学习方法学习;强化学习是一种交互式学习方法,智能体在环境中采取动作获得回报,基于回报进行学习;马尔科夫决策过程建模包括状态,动作,回报函数的设计;智能体在当前状态根据策略采取动作,进行状态转移并得到回报;系统在跟车状态下,描述当前时刻k的驾驶工况的状态向量s(k)为:
s(k)={vh(k),Δv(k),Δx(k),L(k),A(k-1)} (1)
其中,vh(k)为k时刻本车车速,Δv(k)为k时刻相对车速,Δx(k)为k时刻相对距离,L(k)为k时刻前车驾驶意图,A(k-1)为k-1时刻的驾驶模式;
在非跟车状态下,描述驾驶工况的状态向量为:
s(k)={vh(k),vref(k)-vh(k),0,0,A(k-1)} (2)
其中,vh(k)为k时刻本车车速,vref(k)为k时刻驾驶员设定车速,A(k-1)为k-1时刻的驾驶模式;非跟车状态下,表示相对距离与前车驾驶意图的状态分量均为0;
动作A∈{1,2,3,4}表示在定速巡航,加速接近,稳态跟车,快速制动模式间切换的动作;根据驾驶员驾驶数据AD为驾驶员模式,Aπ为当前策略下学习算法输出的动作,则回报函数为:
Figure FDA0002755507740000021
2.2)基于强化学习的最优问题求解:使用数值逼近方法对状态-动作值函数的权重向量基于贝尔曼最优性方程迭代求解;根据驾驶员驾驶数据,使用数值逼近方法求解强化学习中状态-动作值函数的权重向量;
步骤三、通过跟车特性学习模块(D)针对特定驾驶员在每种驾驶模式下跟车行为特性的不同,基于强化学习中常见的Actor-Critic框架在连续状态空间及连续动作空间进一步在线学习;使用结合归一化评价方法和引导动作搜索的强化学习方法,提高算法效率及学习成功率,减少算法对于初始权重的依赖性;
步骤四、通过车辆执行控制模块(E)采用比例-积分-微分PID控制器实现对于决策量即加速度的执行。
2.根据权利要求1所述的一种基于模式切换的驾驶风格的学习巡航控制系统的控制方法,其特征在于,所述的驾驶员驾驶数据包括前后车相对距离、前车车速、本车车速、本车加速度、驾驶员操作发动机力矩信号和制动操作车身制动减速度。
3.根据权利要求1所述的一种基于模式切换的驾驶风格的学习巡航控制系统的控制方法,其特征在于,步骤一中所述的当前车辆和前方车辆行驶状态信息包括当前车辆与前方车辆的速度信息和相对车距信息。
CN201910077510.1A 2019-03-01 2019-03-01 一种基于模式切换的驾驶风格的学习巡航控制系统及方法 Active CN109624986B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910077510.1A CN109624986B (zh) 2019-03-01 2019-03-01 一种基于模式切换的驾驶风格的学习巡航控制系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910077510.1A CN109624986B (zh) 2019-03-01 2019-03-01 一种基于模式切换的驾驶风格的学习巡航控制系统及方法

Publications (2)

Publication Number Publication Date
CN109624986A CN109624986A (zh) 2019-04-16
CN109624986B true CN109624986B (zh) 2021-01-15

Family

ID=66063944

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910077510.1A Active CN109624986B (zh) 2019-03-01 2019-03-01 一种基于模式切换的驾驶风格的学习巡航控制系统及方法

Country Status (1)

Country Link
CN (1) CN109624986B (zh)

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110033617A (zh) * 2019-04-19 2019-07-19 中国汽车工程研究院股份有限公司 一种面向自然驾驶数据的跟驰状态评估系统及方法
CN110001654B (zh) * 2019-05-06 2023-07-28 吉林大学 一种自适应驾驶员类型的智能车纵向速度跟踪控制系统及控制方法
CN111907530B (zh) * 2019-05-10 2021-12-03 广州汽车集团股份有限公司 一种基于驾驶风格识别的车辆加速响应时间调整方法及系统
US11493926B2 (en) * 2019-05-15 2022-11-08 Baidu Usa Llc Offline agent using reinforcement learning to speedup trajectory planning for autonomous vehicles
CN110262235B (zh) * 2019-06-18 2020-07-03 北京理工大学 一种切换系统的无模型最优切换方法
CN110386144B (zh) * 2019-06-19 2020-09-08 长安大学 一种对驾驶人制动意图进行辨识的ghmm/ggap-rbf混合模型及辨识方法
CN110347155B (zh) * 2019-06-26 2020-11-06 北京理工大学 一种智能车辆自动驾驶控制方法及系统
CN110386145B (zh) * 2019-06-28 2020-07-07 北京理工大学 一种目标驾驶员驾驶行为实时预测系统
CN110962848B (zh) * 2019-07-31 2021-08-06 重庆长安汽车股份有限公司 自动驾驶纵向运动控制的方法及系统
CN110435661B (zh) * 2019-08-19 2020-04-24 无锡物联网创新中心有限公司 一种车辆行驶模式的切换控制方法及相关装置
JP6744597B1 (ja) * 2019-10-18 2020-08-19 トヨタ自動車株式会社 車両用制御データの生成方法、車両用制御装置、車両用制御システム、および車両用学習装置
CN110615003B (zh) * 2019-10-30 2020-09-18 吉林大学 基于策略梯度在线学习算法的巡航控制系统及设计方法
CN113022564A (zh) * 2019-12-25 2021-06-25 北京宝沃汽车股份有限公司 车速控制方法,装置,存储介质及电子设备
CN111880545A (zh) * 2020-02-17 2020-11-03 李华兰 自动驾驶装置、系统、自动驾驶决策处理方法及装置
CN111311945B (zh) * 2020-02-20 2021-07-09 南京航空航天大学 一种融合视觉和传感器信息的驾驶决策系统及方法
CN111679576B (zh) * 2020-05-21 2021-07-16 大连理工大学 一种基于改进确定性策略梯度算法的变循环发动机控制器设计方法
CN111547064B (zh) * 2020-05-26 2022-07-12 吉林大学 一种用于汽车自适应巡航系统的驾驶风格识别和分类方法
CN112052956B (zh) * 2020-07-16 2021-12-17 山东派蒙机电技术有限公司 一种强化车辆执行最佳动作的训练方法
CN112172813B (zh) * 2020-10-14 2022-03-04 长安大学 基于深度逆强化学习的模拟驾驶风格的跟车系统及方法
CN112109708B (zh) * 2020-10-26 2023-07-14 吉林大学 一种考虑驾驶行为的自适应巡航控制系统及其控制方法
CN112498354B (zh) * 2020-12-25 2021-11-12 郑州轻工业大学 考虑个性化驾驶体验的多时间尺度自学习变道方法
CN112721949B (zh) * 2021-01-12 2022-07-12 重庆大学 一种自动驾驶车辆纵向驾驶拟人化程度评价方法
US11872985B2 (en) 2021-03-30 2024-01-16 Toyota Motor Engineering & Manufacturing North America, Inc. Determining a setting for a cruise control
CN113335277A (zh) * 2021-04-27 2021-09-03 北京工业大学 智能巡航控制方法、装置、电子设备和存储介质
CN113060146B (zh) * 2021-05-12 2023-04-07 中国第一汽车股份有限公司 一种纵向跟踪控制方法、装置、设备及存储介质
CN113147764B (zh) * 2021-06-01 2022-08-16 吉林大学 基于协同式自适应巡航系统混合势函数的车辆控制方法
CN113401125B (zh) * 2021-07-29 2022-10-11 中国第一汽车股份有限公司 纵向跟车控制方法、装置、电子设备及存储介质
CN113665593B (zh) * 2021-10-22 2022-03-01 智己汽车科技有限公司 一种车辆智能驾驶纵向控制方法、系统及存储介质
CN114148349B (zh) * 2021-12-21 2023-10-03 西南大学 一种基于生成对抗模仿学习的车辆个性化跟驰控制方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060154784A1 (en) * 2002-06-04 2006-07-13 Gopichandra Surnilla Method to improve fuel economy in lean burn engines with variable-displacement-like characteristics
CN105501216A (zh) * 2016-01-25 2016-04-20 合肥工业大学 基于车联网的混合动力汽车的分层能量管理控制方法
CN107239628A (zh) * 2017-06-15 2017-10-10 清华大学 一种基于动态时序图的不确定性机车仿真模型系统构建方法
CN108995653A (zh) * 2018-07-06 2018-12-14 北京理工大学 一种驾驶员驾驶风格识别方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060154784A1 (en) * 2002-06-04 2006-07-13 Gopichandra Surnilla Method to improve fuel economy in lean burn engines with variable-displacement-like characteristics
CN105501216A (zh) * 2016-01-25 2016-04-20 合肥工业大学 基于车联网的混合动力汽车的分层能量管理控制方法
CN107239628A (zh) * 2017-06-15 2017-10-10 清华大学 一种基于动态时序图的不确定性机车仿真模型系统构建方法
CN108995653A (zh) * 2018-07-06 2018-12-14 北京理工大学 一种驾驶员驾驶风格识别方法及系统

Also Published As

Publication number Publication date
CN109624986A (zh) 2019-04-16

Similar Documents

Publication Publication Date Title
CN109624986B (zh) 一种基于模式切换的驾驶风格的学习巡航控制系统及方法
CN109927725B (zh) 一种具有驾驶风格学习能力的自适应巡航系统及实现方法
CN110568760B (zh) 适用于换道及车道保持的参数化学习决策控制系统及方法
CN108944930B (zh) 一种基于lstm的模拟驾驶员特性的自动跟车方法及系统
Zeng et al. A stochastic driver pedal behavior model incorporating road information
CN112242059B (zh) 基于动机与风险评估的无人驾驶车辆智能决策方法
Jing et al. Vehicle speed prediction using a cooperative method of fuzzy Markov model and auto-regressive model
CN110615003B (zh) 基于策略梯度在线学习算法的巡航控制系统及设计方法
Kumagai et al. Prediction of driving behavior through probabilistic inference
CN110688729B (zh) 基于自适应卡尔曼滤波的lstm-idm跟驰特性融合方法、存储介质及设备
Chu et al. Self-learning optimal cruise control based on individual car-following style
Kuutti et al. End-to-end reinforcement learning for autonomous longitudinal control using advantage actor critic with temporal context
Marzbanrad et al. Self-tuning control algorithm design for vehicle adaptive cruise control system through real-time estimation of vehicle parameters and road grade
CN111830962A (zh) 强化学习代理控制器的解释数据
CN110490275A (zh) 一种基于迁移学习的驾驶行为预测方法
CN115056776A (zh) 综合考虑感知过程与驾驶员行为的自适应驾驶人跟驰方法
Yao et al. Target vehicle selection algorithm for adaptive cruise control based on lane-changing intention of preceding vehicle
CN112124310A (zh) 一种车辆的路径变换方法和装置
CN115214691A (zh) 汽车行驶车速预测方法、装置、电子设备以及存储介质
CN113954844B (zh) 一种智能汽车人机驾驶模式切换系统
Da Rocha et al. Model predictive control of a heavy-duty truck based on Gaussian process
CN113635900B (zh) 一种预测巡航过程中基于能量管理的换道决策控制方法
CN115352443A (zh) 一种基于旁车切入识别的自适应巡航控制方法及设备
Sheng et al. A study on learning and simulating personalized car-following driving style
CN114228748A (zh) 一种基于几何路径生成的类人化自动驾驶轨迹规划方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant