CN110745136B - 一种驾驶自适应控制方法 - Google Patents

一种驾驶自适应控制方法 Download PDF

Info

Publication number
CN110745136B
CN110745136B CN201910893473.1A CN201910893473A CN110745136B CN 110745136 B CN110745136 B CN 110745136B CN 201910893473 A CN201910893473 A CN 201910893473A CN 110745136 B CN110745136 B CN 110745136B
Authority
CN
China
Prior art keywords
driving
network model
vehicle
distance
decision
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910893473.1A
Other languages
English (en)
Other versions
CN110745136A (zh
Inventor
高洪波
刘康
李智军
储晓丽
郝正源
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN201910893473.1A priority Critical patent/CN110745136B/zh
Publication of CN110745136A publication Critical patent/CN110745136A/zh
Application granted granted Critical
Publication of CN110745136B publication Critical patent/CN110745136B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W30/00Purposes of road vehicle drive control systems not related to the control of a particular sub-unit, e.g. of systems using conjoint control of vehicle sub-units
    • B60W30/18Propelling the vehicle
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W40/00Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W40/00Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models
    • B60W40/02Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models related to ambient conditions
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W40/00Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models
    • B60W40/10Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models related to vehicle motion
    • B60W40/105Speed
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Automation & Control Theory (AREA)
  • Transportation (AREA)
  • Mechanical Engineering (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明公开了一种驾驶自适应控制方法,属于智能驾驶和人工智能技术领域,包括获取历史驾驶数据集,并将历史驾驶数据集分为训练集、测试集和验证集;采用基于深度卷积神经网络的深度强化学习算法,构建用于驾驶控制的网络模型;利用训练集数据对网络模型进行训练,并利用代价函数的梯度迭代重复训练网络模型,以得到优化后的网络模型;利用测试集和验证集对优化后的网络模型的性能进行验证,并将满足性能的网络模型作为自适应决策模型;利用自适应决策模型对当前采集的实时环境数据进行处理,做出驾驶决策。本发明能更好的模拟人类在真实复杂环境下做出的驾驶决策和相应的驾驶动作。

Description

一种驾驶自适应控制方法
技术领域
本发明涉及智能驾驶及人工智能技术领域,特别涉及一种驾驶自适应控制方法。
背景技术
近年来,随着智能驾驶技术和人工智能技术的快速兴起,越来越多的高校、企业以及研究所纷纷对智能车开始实验测试,并已经从基础技术研发逐渐转向为市场应用。智能驾驶的发展,从根本上改变了传统的车辆驾驶方式,将驾驶员从复杂的驾驶环境中解放出来,利用环境感知、雷达设备、自主定位、决策规划、以及智能控制等技术,来实现在没有人类主动干扰的情况下,自动、安全且高效地完成自动避障、自适应巡航、泊车以及超车等类人类驾驶行为。智能驾驶技术的研究对缓解交通拥堵、保证交通安全以及降低能源消耗,具有不可替代的现实意义和应用前景,同时,也极大地加强了在复杂环境下的自主探测与作业能力,满足国家重大安全需求的战略性核心技术。
智能驾驶的自主控制系统是利用感知的实时环境数据、高精度的地图、车辆的驾驶状态以及预测到的周边行人和车辆的动作和意图,自主制定控制策略的过程。随着信息技术,尤其是传感器、通信、认知科学、计算机和互联网技术的快速发展,基于深度学习和专家规则限定的控制方法被广泛应用于智能车辆的控制和自动识别领域。然而,由于实际应用场景的复杂多变和不可预测,基于专家规则制定的策略可能无法覆盖足够广阔的场景范围,从而容易造成严重的交通事故。除此之外,当新添加的规则与原本的规则发生冲突时,就必须对原本的规则进行调整修改,这大大降低了基于专家规则制定策略的鲁棒性和自适应性。基于深度学习的控制理论,英伟达公司于2016年通过训练深度卷积神经网络搭建环境信息与车辆控制参数的映射关系,实现“端到端”控制,然而,该方法只是简单的利用深度学习所具备的感知能力来转化为对自主车辆的决策与控制,因此,通过度依赖深度学习而缺乏理性客观的分析,同时,该方法需要大量含有标签的数据集,这极大地加重了研究者的工作量。
发明内容
本发明的目的在于克服现有技术存在的缺陷或不足,以提供一种能更好的模拟人类在真实复杂环境下做出的驾驶决策和相应的驾驶动作的智能驾驶控制方法。
为实现以上目的,采用一种驾驶自适应控制方法,包括如下步骤:
获取历史驾驶数据集,并将历史驾驶数据集分为训练集、测试集和验证集;
采用基于深度卷积神经网络的深度强化学习算法,构建用于驾驶控制的网络模型;
利用训练集数据对网络模型进行训练,并利用代价函数的梯度迭代重复训练网络模型,以得到优化后的网络模型;
利用测试集和验证集对优化后的网络模型的性能进行验证,并将满足性能的网络模型作为自适应决策模型;
利用自适应决策模型对当前采集的实时环境数据进行处理,做出驾驶决策。
进一步地,所述获取的历史驾驶数据集为驾驶员处于自然状态下在实际道路上行驶得到驾驶数据;所述历史驾驶数据集中每组样本值包括车辆驾驶状态和对应的驾驶动作,车辆驾驶状态包括车辆周围的道路环境信息、车辆当前行驶的速度和朝向以及驾驶决策信息。
进一步地,所述用于驾驶控制的网络模型,其结构包括1个输入层、5个卷积层、3个池化层、3个全连接层以及1个输出层;
输入层接第一卷积层,第一卷积层的输出接第一池化层,第一池化层的输出接第二卷积层,第二卷积层的输出接第二池化层,第二池化层的输出依次接第三卷积层、第四卷积层和第五卷积层;
第五卷积层的输出接第三池化层,第三池化层的输出依次接第一全连接层、第二全连接层和第三全连接层,第三全连接层的输出接输出层。
进一步地,所述利用训练集数据对网络模型进行训练,并利用代价函数的梯度迭代重复训练网络模型,以得到优化后的网络模型,包括:
将所述训练集的数据作为所述网络模型的输入,构建样本集D,样本集D中的样本值为(s,a,r,s′),其中,s表示车辆当前的驾驶状态,a表示车辆当前的驾驶状态所对应的驾驶动作,s′表示车辆下一步的驾驶状态,r表示在驾驶状态s下的奖励值,s′和r为执行驾驶动作a′后从环境中获得的反馈信息,a′为将s和a作为所述网络模型的输入时,所述网络模型输出网络目标值中的最大值所对应的驾驶动作;
基于样本集D中的样本值,利用代价函数的梯度迭代重复所述训练网络模型,得到优化后的网络模型并输出优化后的网络目标值。
进一步地,所述驾驶决策包括跟驰驾驶、变道驾驶、转弯驾驶和泊车,在所述驾驶决策为跟驰驾驶时,还包括对跟驰驾驶决策下的奖励值进行评价,具体为:
Figure GDA0002799799120000031
其中,Adistance、Bangle、Gdistance和v分别表示当前车辆与前方车辆的车距、车辆当前的行驶朝向与所行驶道路中线的切线夹角、车辆中线上的点与所行驶道路中线的最短距离以及车辆当前的行驶速度,a1、b1、c1和d1分别表示Adistance、Bangle、v和Gdistance的权重系数。
进一步地,在所述驾驶决策为变道驾驶时,还包括对变道驾驶决策下的奖励值进行评价,具体为:
Figure GDA0002799799120000032
其中,Edistance、Bangle和Gdistance分别表示车辆在当前行驶道路和换道后距离前后方障碍物的最近距离、车辆当前的行驶朝向与所行驶道路中线的切线夹角,以及车辆中线上的点与所行驶道路中线的最短距离;v表示车辆当前的行驶速度,T1表示完成变道所需的时间,a2、b2、c2、d2和g1分别分别表示Edistance、Bangle、v、Gdistance和T1的权重系数。
进一步地,在所述驾驶决策为转弯驾驶时,还包括对转弯驾驶决策下的奖励值进行评价,具体为:
Figure GDA0002799799120000041
其中,Fdistance、Bangle和Gdistance分别表示车辆距离周围障碍物的最近距离、车辆当前的行驶朝向与所行驶道路中线的切线夹角,以及车辆中线上的点与所行驶道路中线的最短距离,v表示车辆当前的行驶速度,T2表示完成转弯所需的时间,a3、b3、c3、d3和g2分别表示Fdistance、Bangle、v、Hdistance和T2权重系数,n1和m别表示变道驾驶和跟驰驾驶评分的权重系数。
进一步地,在所述驾驶决策为泊车时,还包括对泊车决策下的奖励值进行评价,具体为:
Figure GDA0002799799120000042
其中,Gdistance、Hdistance和Bangle分别表示车辆当前车道距前后方障碍物的最近距离、车辆中线上的点距离道路边缘的最近距离以及车辆当前的行驶朝向与所行驶道路中线的切线夹角;v表示车辆当前的行驶速度,T3表示完成泊车所需的时间,a4、b 4、c4、d4和g3分别表示Gdistance、Bangle、v、Hdistance和T3的权重系数;n2和m分别表示泊车过程和跟驰驾驶评分的权重系数。
进一步地,所述基于样本集D中的样本值,利用代价函数的梯度迭代重复所述训练网络模型,得到优化后的网络模型并输出优化后的网络目标值,包括:
从所述样本集D中随机选择一组样本值作为所述网络模型的输入,并判断是否达到最大迭代步数或满足迭代结束条件;
若是,则将所述网络模型作为优化后的网络模型;
若否,则从样本集D中随机选择一组样本值作为所述网络模型的输入,对所述网络模型进行训练和学习,并在达到收敛后,将新产生的样本值替换掉样本集D中当前选择的样本值;
并将误差最小的网络模型作为所述优化后的网络模型,并输出优化后的网络目标值,所述优化后的网络目标值y的计算公式为:
y=r+γ·Q*(s′,a′)
其中,γ为衰减系数,Q*表示在所有迭代时间中网络目标Q的最大值,·表示乘积;
利用优化后的网络目标值对所述优化后的网络模型的参数进行更新。
进一步地,所述利用优化后的网络目标值对所述优化后的网络模型的参数进行更新,包括:
通过代价函数的反向梯度下降法对所述优化后的网络模型的参数进行更新,所述代价函数的计算公式如下:
Figure GDA0002799799120000051
所述代价函数的更新率的计算公式如下:
Figure GDA0002799799120000052
按照目标的正梯度方向对参数进行更新,更新后的网络参数θi计算公式如下:
Figure GDA0002799799120000053
其中,η为学习率,θi表示在i时刻的网络参数,1≤i≤T,T表示迭代更新步长。
与现有技术相比,本发明存在以下技术效果:本发明将深度学习和强化学习结合起来,利用深度学习强大的感知能力来解决目标和值函数的建模问题,利用强化学习出色的决策能力来实现目标的优化和调度问题,深度强化学习是一种非监督式学习方法,通过奖励的方式,使机器人从环境中获得的累计奖励值最大化,最终得到能实现目标的最优控制方案,能更好的模拟人类在真实复杂环境下做出的驾驶决策和相应的驾驶动作,为解决智能驾驶中的控制问题提供了有效的解决策略。
附图说明
下面结合附图,对本发明的具体实施方式进行详细描述:
图1是一种驾驶自适应控制方法的流程示意图;
图2是深度强化学习算法的训练流程图;
图3是用于驾驶控制的网络模型的结构示意图。
具体实施方式
为了更进一步说明本发明的特征,请参阅以下有关本发明的详细说明与附图。所附图仅供参考与说明之用,并非用来对本发明的保护范围加以限制。
如图1所示,本实施例公开了一种驾驶自适应控制方法,包括如下步骤S1至S5:
S1、获取历史驾驶数据集,并将历史驾驶数据集分为训练集、测试集和验证集;
S2、采用基于深度卷积神经网络的深度强化学习算法,构建用于驾驶控制的网络模型;
S3、利用训练集数据对网络模型进行训练,并利用代价函数的梯度迭代重复训练网络模型,以得到优化后的网络模型;
S4、利用测试集和验证集对优化后的网络模型的性能进行验证,并将满足性能的网络模型作为自适应决策模型;
S5、利用自适应决策模型对当前采集的实时环境数据进行处理,做出驾驶决策。
其中,通过搭建深度卷积神经网络模型作为用于驾驶控制的网络模型,计算出网络目标值。经过反复迭代训练和测试验证,更新网络参数,构建更加优化的神经网络模型,并移植至真实环境中的智能车控制系统中。基于深度强化学习的智能驾驶控制策略能更好地模拟人类在真实复杂环境下做出的驾驶决策和相应的驾驶动作,同时也对智能驾驶的发展具有长远且积极的影响。
具体来说,本实施例所述历史驾驶数据为基于大型实车路试先验实验所提供的实验数据,从中随机选取大量人工驾驶模式下的自然驾驶数据,并将所选取的自然驾驶数据划分为训练集、测试集和验证集,划分比例为6:1:1。
需要说明的是,自然驾驶数据指的是利用高精密度的数据采集系统所获取到驾驶员在自然状态下(即驾驶员按照日常的驾驶习惯和驾驶动作行驶)最真实的实际道路下的驾驶数据。特别地,自然驾驶数据相较于实验道路的实车数据,具有更多样的数据量,更能反映驾驶员在实际交通环境下的真实驾驶状态,另外,自然驾驶数据相较于高空摄像机采集的纯轨迹数据,包含了更清楚的道路环境信息和车辆驾驶时的姿态信息,有利于开展驾驶员对车辆控制层面的评估。
本实施例所述的历史驾驶数据集中,每组样本值包括车辆驾驶状态和对应的驾驶动作,车辆驾驶状态包括车辆周围的道路环境信息、车辆当前行驶的速度和朝向以及驾驶决策信息。其中,车辆周围的道路环境信息包括信号灯、道路标志、周围车辆以及行人;驾驶决策信息包括泊车、跟驰、转弯、换道驾驶,利用驾驶状态信息去指导做出正确的驾驶动作,驾驶动作包括踩油门,踩刹车以及打方向。
为了使问题简单化,本实施例中将车辆的驾驶动作空间分解为对车辆的纵向控制和横向控制两部分,其中把整车视为刚体,将车辆中心视为坐标原点,车辆正前方视为二维坐标系中的正纵坐标轴。除此之外,本发明通过调整方向盘的转角对车辆进行横向控制,通过将刹车和油门合成为一个向量对车辆进行纵向控制,如果向量是正则表示踩油门,即车辆加速,如果向量是负则表示踩刹车,即车辆减速,如果向量是零则表示车辆在纵向上既不踩刹车也不踩油门,即车辆保持当前速度行驶。
具体来说,如图3所示,上述步骤S2中构建用于驾驶控制的网络模型,其网络结构包括1个输入层、5个卷积层、3个池化层、3个全连接层以及1个输出层;
输入层接第一卷积层,第一卷积层的输出接第一池化层,第一池化层的输出接第二卷积层,第二卷积层的输出接第二池化层,第二池化层的输出依次接第三卷积层、第四卷积层和第五卷积层;
第五卷积层的输出接第三池化层,第三池化层的输出依次接第一全连接层、第二全连接层和第三全连接层,第三全连接层的输出接输出层。
具体地,在基于深度卷积神经网络的深度强化学习中,输入信息从输入层通过前向反馈方式,经过由卷积层和池化层相互交替连接的中间层,最后通过采用全连接结构方式的输出层来输出信息,具体的计算公式如下:
Figure GDA0002799799120000081
βl和Wl(·)分别表示深度卷积网络的第l层中的第n个神经元输出量,偏置量以及权重,则有以下三种情况:
(1)当第l层为卷积层时,则该层中第n个神经元的输出公式为
Figure GDA0002799799120000082
其中,k、fa、M以及符号*分别表示卷积核、卷积层的激活函数、输入信息的集合以及卷积核在第l-1层所有关联的特征映射上进行运算。
(2)当第l层为池化层时,则该层中第n个神经元的输出公式为
Figure GDA0002799799120000083
其中,fb表示池化函数;
Figure GDA0002799799120000084
表示池化层中的激活函数,在本实施例中采用随机池化,降低计算复杂度、消除非极大值以及避免过拟合的现象。
(3)当第l层为全连接层时,则该层中第n个神经元的输出公式为
Figure GDA0002799799120000091
其中,fb表示全连接层的激活函数。
对于情况(1)-(3),所述的激活函数采用ELU(Exponential Linear Units)函数,表达式如下:
Figure GDA0002799799120000092
其中,α表示正常数。
具体来说,如图2所示,上述步骤S3:所述利用训练集数据对网络模型进行训练,并利用代价函数的梯度迭代重复训练网络模型,以得到优化后的网络模型,包括如下细分步骤S31至S32:
S31、将所述训练集的数据作为所述网络模型的输入,构建样本集D,样本集D中的样本值为(s,a,r,s′),其中,s表示车辆当前的驾驶状态,a表示车辆当前的驾驶状态所对应的驾驶动作,s′表示车辆下一步的驾驶状态,r表示在驾驶状态s下的奖励值,s′和r为执行驾驶动作a′后从环境中获得的反馈信息,a′为将s和a作为所述网络模型的输入时,所述网络模型输出网络目标值中的最大值所对应的驾驶动作;
需要说明的是,样本集D的构建过程为:智能车在当前驾驶状态s下,从可行的驾驶动作列表中以概率ε随机选择一个驾驶动作作为当前驾驶动作a,当前驾驶状态s和当前驾驶动作a输入到深度卷积神经网络中,利用深度强化学习算法计算出下一步中执行每个可能的驾驶动作a′的Q值,选取其中最大的Q值所对应的驾驶动作a′,当执行完成驾驶动作a′后,则智能车能从环境中获得反馈信息,即下一步驾驶状态s′和在驾驶状态s下的奖励值r,从而获得由四元组构成的样本值(s,a,r,s′)。重复上述过程,持续采集数据样本,并将获得的样本值存入到回放样本存储器中,形成样本集D。
S32、基于样本集D中的样本值,利用代价函数的梯度迭代重复所述训练网络模型,得到优化后的网络模型并输出优化后的网络目标值。
进一步地,由于基于深度卷积神经网络的深度强化学习模型是根据与环境交互所得的奖励值对网络进行反馈指导和训练优化,因此,训练的目标越明确且奖励值与训练目标的正相关越强,也就越有利于缩短训练网络模型的时间。针对智能车在实际道路上行驶时做出的不同驾驶决策,本实施例设计了相应的奖励值评价方法,以保证不同的驾驶决策都能通过正确且合理的奖励值评价方法对驾驶动作做出反馈和指导。本申请所述驾驶决策包括跟驰驾驶、变道驾驶、转弯驾驶和泊车,奖励值评价方法的原理如下:
(1)驾驶决策为跟驰驾驶时,对跟驰驾驶决策下的奖励值进行评价,具体为:
Figure GDA0002799799120000101
其中,Adistance、Bangle、Gdistance和v分别表示当前车辆与前方车辆的车距、车辆当前的行驶朝向与所行驶道路中线的切线夹角、车辆中线上的点与所行驶道路中线的最短距离以及车辆当前的行驶速度,a1、b1、c1和d1分别表示Adistance、Bangle、v和Gdistance的权重系数。
(2)驾驶决策为变道驾驶时,对变道驾驶决策下的奖励值进行评价,具体为:
Figure GDA0002799799120000102
其中,Edistance、Bangle和Gdistance分别表示车辆在当前行驶道路和换道后距离前后方障碍物的最近距离、车辆当前的行驶朝向与所行驶道路中线的切线夹角,以及车辆中线上的点与所行驶道路中线的最短距离;v表示车辆当前的行驶速度,T1表示完成变道所需的时间,a2、b2、c2、d2和g1分别分别表示Edistance、Bangle、v、Gdistance和T1的权重系数。
(3)驾驶决策为转弯驾驶时,对转弯驾驶决策下的奖励值进行评价,具体为:
Figure GDA0002799799120000111
其中,Fdistance、Bangle和Gdistance分别表示车辆距离周围障碍物的最近距离、车辆当前的行驶朝向与所行驶道路中线的切线夹角,以及车辆中线上的点与所行驶道路中线的最短距离,v表示车辆当前的行驶速度,T2表示完成转弯所需的时间,a3、b3、c3、d3和g2分别表示Fdistance、Bangle、v、Hdistance和T2权重系数,n1和m别表示变道驾驶和跟驰驾驶评分的权重系数。
(4)在驾驶决策为泊车时,对泊车决策下的奖励值进行评价,具体为:
Figure GDA0002799799120000112
其中,Gdistance、Hdistance和Bangle分别表示车辆当前车道距前后方障碍物的最近距离、车辆中线上的点距离道路边缘的最近距离以及车辆当前的行驶朝向与所行驶道路中线的切线夹角;v表示车辆当前的行驶速度,T3表示完成泊车所需的时间,a4、b 4、c4、d4和g3分别表示Gdistance、Bangle、v、Hdistance和T3的权重系数;n2和m分别表示泊车过程和跟驰驾驶评分的权重系数。
需要说明的是,上述不同驾驶决策的奖励值评价方法是基于训练目标与奖励值的正负相关性来设计的,不仅仅局限于本申请所提出的训练目标,还可以包括其他合理的训练目标。
进一步地,上述步骤S32:基于样本集D中的样本值,利用代价函数的梯度迭代重复所述训练网络模型,得到优化后的网络模型并输出优化后的网络目标值,具体包括如下细分步骤S321至S324:
S321、从所述样本集D中随机选择一组样本值(sj,aj,rj,sj′)作为所述网络模型的输入,并判断是否达到最大迭代步数或满足迭代结束条件,若是则执行步骤S322,若否则执行步骤S323;
S322、将所述网络模型作为优化后的网络模型,则优化后的网络目标值y=r;
S323、从样本集D中随机选择一组样本值(sj,aj,rj,sj′)作为所述网络模型的输入,对所述网络模型进行训练和学习,并在达到收敛后,将新产生的样本值(sm,am,rm,s′m)替换掉样本集D中当前选择的样本值(sj,aj,rj,sj′);
S324、不断重复更新和优化网络模型后,将误差最小的网络模型作为优化后的网络模型,并输出优化后的网络目标值y。
具体地,从所述样本集D中随机选择一组样本值(sj,aj,rj,sj′)作为所述网络模型的输入,计算网络目标值Q的最大值Q*。在经历迭代时间T后,Q*值的计算公式如下:
Q*(s′,a′)=max{Q(s′,a′;θ1),Q(s′,a′;θ2),...,Q(s′,a′;θT)}
其中,Q(s′,α′;θi)分别表示在下一步状态s′和奖励值r时的网络目标值,Q*表示在所有迭代时间中Q的最大值,θi表示在i时刻的网络参数,另外,1≤i≤T,T表示迭代更新步长。
所述优化后的网络目标值y的计算公式为:
y=r+γ·Q*(s′,a′)
其中,γ为衰减系数,Q*表示所有迭代时间中网络目标值Q的最大值,·表示乘积。
所述利用优化后的网络目标值对所述优化后的网络模型的参数进行更新,包括:
通过代价函数的反向梯度下降法对所述优化后的网络模型的参数进行更新,所述代价函数的计算公式如下:
Figure GDA0002799799120000121
所述代价函数的更新率的计算公式如下:
Figure GDA0002799799120000122
按照目标的正梯度方向对参数进行更新,更新后的网络参数θi计算公式如下:
Figure GDA0002799799120000131
其中,η为学习率,η为学习率,其决定着算法每一轮迭代中的更新步长,θi+1表示θi更新后的值。
具体来说,上述步骤S4:利用测试集和验证集对优化后的网络模型的性能进行验证,并将满足性能的网络模型作为自适应决策模型,具体包括:将测试集和验证集分别输入到优化后的网络模型中,进行验证和分析,基于验证误差来评价模型的泛化能力,如果满足性能要求,则将最终的优化网络模型移植至现实环境中。
具体来说,上述步骤S5:利用自适应决策模型对当前采集的实时环境数据进行处理,做出驾驶决策,包括:
将车载摄像机、惯导系统以及GPS定位系统所采集到的车辆周围环境信息,输入至自适应决策模型中,做出驾驶决策并指导完成相应的驾驶动作,实现智能车在真实道路下的智能驾驶的自适应控制。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种驾驶自适应控制方法,其特征在于,包括:
获取历史驾驶数据集,并将历史驾驶数据集分为训练集、测试集和验证集;
采用基于深度卷积神经网络的深度强化学习算法,构建用于驾驶控制的网络模型;
利用训练集数据对网络模型进行训练,并利用代价函数的梯度迭代重复训练网络模型,以得到优化后的网络模型,包括:
从样本集D中随机选择一组样本值作为所述网络模型的输入,并判断是否达到最大迭代步数或满足迭代结束条件,样本集D通过将所述训练集的数据作为所述网络模型的输入构建得到;
若是,则将所述网络模型作为优化后的网络模型;
若否,则从样本集D中随机选择一组样本值作为所述网络模型的输入,对所述网络模型进行训练和学习,并在达到收敛后,将新产生的样本值替换掉样本集D中当前选择的样本值;
将误差最小的网络模型作为所述优化后的网络模型,并输出优化后的网络目标值,所述优化后的网络目标值y的计算公式为:
y=r+γ·Q*(s′,a′)
其中,γ为衰减系数,Q*表示所有迭代时间中网络目标值Q的最大值,·表示乘积,s′表示车辆下一步的驾驶状态,r表示在车辆当前的驾驶状态s下的奖励值,s′和r为执行驾驶动作a′后从环境中获得的反馈信息,a′为将s和车辆当前的驾驶状态所对应的驾驶动作a作为所述网络模型的输入时,所述网络模型输出网络目标值中的最大值所对应的驾驶动作;
通过代价函数的反向梯度下降法对所述优化后的网络模型的参数进行更新,所述代价函数的计算公式如下:
Figure FDA0002950550660000011
所述代价函数的更新率的计算公式如下:
Figure FDA0002950550660000021
按照目标的正梯度方向对参数进行更新,更新后的网络参数θi计算公式如下:
Figure FDA0002950550660000022
其中,η为学习率,θi表示在i时刻的网络参数,1≤i≤T,T表示迭代更新步长;
利用测试集和验证集对优化后的网络模型的性能进行验证,并将满足性能的网络模型作为自适应决策模型;
利用自适应决策模型对当前采集的实时环境数据进行处理,做出驾驶决策。
2.如权利要求1所述的驾驶自适应控制方法,其特征在于,所述获取的历史驾驶数据集为驾驶员处于自然状态下在实际道路上行驶得到驾驶数据;所述历史驾驶数据集中每组样本值包括车辆驾驶状态和对应的驾驶动作,车辆驾驶状态包括车辆周围的道路环境信息、车辆当前行驶的速度和朝向以及驾驶决策信息。
3.如权利要求1所述的驾驶自适应控制方法,其特征在于,所述用于驾驶控制的网络模型,其结构包括1个输入层、5个卷积层、3个池化层、3个全连接层以及1个输出层;
输入层接第一卷积层,第一卷积层的输出接第一池化层,第一池化层的输出接第二卷积层,第二卷积层的输出接第二池化层,第二池化层的输出依次接第三卷积层、第四卷积层和第五卷积层;
第五卷积层的输出接第三池化层,第三池化层的输出依次接第一全连接层、第二全连接层和第三全连接层,第三全连接层的输出接输出层。
4.如权利要求2所述的驾驶自适应控制方法,其特征在于,所述利用训练集数据对网络模型进行训练,并利用代价函数的梯度迭代重复训练网络模型,以得到优化后的网络模型,包括:
将所述训练集的数据作为所述网络模型的输入,构建样本集D,样本集D中的样本值为(s,a,r,s′);
基于样本集D中的样本值,利用代价函数的梯度迭代重复所述训练网络模型,得到优化后的网络模型并输出优化后的网络目标值。
5.如权利要求4所述的驾驶自适应控制方法,其特征在于,所述驾驶决策包括跟驰驾驶、变道驾驶、转弯驾驶和泊车,在所述驾驶决策为跟驰驾驶时,还包括对跟驰驾驶决策下的奖励值进行评价,具体为:
Figure FDA0002950550660000031
其中,Adistance、Bangle、Gdistance和v分别表示当前车辆与前方车辆的车距、车辆当前的行驶朝向与所行驶道路中线的切线夹角、车辆中线上的点与所行驶道路中线的最短距离以及车辆当前的行驶速度,a1、b1、c1和d1分别表示Adistance、Bangle、v和Gdistance的权重系数。
6.如权利要求5所述的驾驶自适应控制方法,其特征在于,在所述驾驶决策为变道驾驶时,还包括对变道驾驶决策下的奖励值进行评价,具体为:
Figure FDA0002950550660000032
其中,Edistance、Bangle和Gdistance分别表示车辆在当前行驶道路和换道后距离前后方障碍物的最近距离、车辆当前的行驶朝向与所行驶道路中线的切线夹角,以及车辆中线上的点与所行驶道路中线的最短距离;v表示车辆当前的行驶速度,T1表示完成变道所需的时间,a2、b2、c2、d2和g1分别分别表示Edistance、Bangle、v、Gdistance和T1的权重系数。
7.如权利要求5所述的驾驶自适应控制方法,其特征在于,在所述驾驶决策为转弯驾驶时,还包括对转弯驾驶决策下的奖励值进行评价,具体为:
Figure FDA0002950550660000033
其中,Fdistance、Bangle和Gdistance分别表示车辆距离周围障碍物的最近距离、车辆当前的行驶朝向与所行驶道路中线的切线夹角,以及车辆中线上的点与所行驶道路中线的最短距离,v表示车辆当前的行驶速度,T2表示完成转弯所需的时间,a3、b3、c3、d3和g2分别表示Fdistance、Bangle、v、Hdistance和T2权重系数,n1和m别表示变道驾驶和跟驰驾驶评分的权重系数。
8.如权利要求5所述的驾驶自适应控制方法,其特征在于,在所述驾驶决策为泊车时,还包括对泊车决策下的奖励值进行评价,具体为:
Figure FDA0002950550660000041
其中,Gdistance、Hdistance和Bangle分别表示车辆当前车道距前后方障碍物的最近距离、车辆中线上的点距离道路边缘的最近距离以及车辆当前的行驶朝向与所行驶道路中线的切线夹角;v表示车辆当前的行驶速度,T3表示完成泊车所需的时间,a4、b4、c4、d4和g3分别表示Gdistance、Bangle、v、Hdistance和T3的权重系数;n2和m分别表示泊车过程和跟驰驾驶评分的权重系数。
CN201910893473.1A 2019-09-20 2019-09-20 一种驾驶自适应控制方法 Active CN110745136B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910893473.1A CN110745136B (zh) 2019-09-20 2019-09-20 一种驾驶自适应控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910893473.1A CN110745136B (zh) 2019-09-20 2019-09-20 一种驾驶自适应控制方法

Publications (2)

Publication Number Publication Date
CN110745136A CN110745136A (zh) 2020-02-04
CN110745136B true CN110745136B (zh) 2021-05-07

Family

ID=69276819

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910893473.1A Active CN110745136B (zh) 2019-09-20 2019-09-20 一种驾驶自适应控制方法

Country Status (1)

Country Link
CN (1) CN110745136B (zh)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11663494B2 (en) 2019-12-05 2023-05-30 Uchicago Argonne, Llc Systems and methods for hierarchical multi-objective optimization
CN111301404B (zh) * 2020-02-06 2022-02-18 北京小马慧行科技有限公司 车辆的控制方法及装置、存储介质及处理器
US11651839B2 (en) 2020-03-02 2023-05-16 Uchicago Argonne, Llc Systems and methods for generating phase diagrams for metastable material states
US11710038B2 (en) * 2020-04-13 2023-07-25 Uchicago Argonne, Llc Systems and methods for active learning from sparse training data
CN111619624B (zh) * 2020-06-01 2022-06-21 北京全路通信信号研究设计院集团有限公司 一种基于深度强化学习的有轨电车运行控制方法和系统
CN111859778B (zh) * 2020-06-04 2021-12-28 阿波罗智能技术(北京)有限公司 泊车模型的生成方法和装置、电子设备和存储介质
CN111814667B (zh) * 2020-07-08 2022-10-14 山东浪潮云服务信息科技有限公司 一种智能路况识别方法
CN111967087A (zh) * 2020-07-16 2020-11-20 山东派蒙机电技术有限公司 基于神经网络的网联车辆决策控制模型建立及评估方法
CN112009463B (zh) * 2020-08-10 2022-04-19 广州汽车集团股份有限公司 一种辅助驾驶员泊车的方法和泊车控制器
CN112052776B (zh) * 2020-09-01 2021-09-10 中国人民解放军国防科技大学 无人车自主驾驶行为优化方法、装置和计算机设备
CN112201069B (zh) * 2020-09-25 2021-10-29 厦门大学 基于深度强化学习的驾驶员纵向跟车行为模型构建方法
CN112172813B (zh) * 2020-10-14 2022-03-04 长安大学 基于深度逆强化学习的模拟驾驶风格的跟车系统及方法
CN112406867B (zh) * 2020-11-19 2021-12-28 清华大学 基于强化学习和避让策略的应急车辆混合换道决策方法
CN112418237A (zh) * 2020-12-07 2021-02-26 苏州挚途科技有限公司 车辆驾驶决策方法、装置及电子设备
CN112758100B (zh) * 2021-02-03 2023-03-14 洪丰 一种油门误踩检测方法及装置
CN112758107B (zh) * 2021-02-07 2023-01-03 的卢技术有限公司 一种车辆自动变道方法、控制装置、电子设备及汽车
CN113276883B (zh) * 2021-04-28 2023-04-21 南京大学 基于动态生成环境的无人车行驶策略规划方法及实现装置
CN112925331B (zh) * 2021-05-10 2021-09-24 北京三快在线科技有限公司 一种无人设备控制方法、装置、存储介质及电子设备
CN113406579B (zh) * 2021-06-07 2022-09-27 哈尔滨工程大学 一种基于深度强化学习的伪装干扰波形生成方法
CN113222295B (zh) * 2021-06-07 2022-05-27 吉林大学 一种面向l3级自动驾驶汽车控制权切换状态下的接管时间预测方法
CN113534960B (zh) * 2021-07-29 2024-05-28 中国科学技术大学 基于imu和表面肌电信号的上臂假肢控制方法及系统
CN113602287B (zh) * 2021-08-13 2024-01-26 吉林大学 一种面向低驾龄驾驶员的人机共驾系统
CN114391827A (zh) * 2022-01-06 2022-04-26 普昶钦 一种基于卷积神经网络的院前肺气肿诊断装置
CN114347043B (zh) * 2022-03-16 2022-06-03 季华实验室 一种机械手模型学习方法、装置、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107145936A (zh) * 2017-04-22 2017-09-08 大连理工大学 一种基于强化学习的车辆跟驰模型建立方法
CN107179077A (zh) * 2017-05-15 2017-09-19 北京航空航天大学 一种基于elm‑lrf的自适应视觉导航方法
CN108944930A (zh) * 2018-07-05 2018-12-07 合肥工业大学 一种基于lstm的模拟驾驶员特性的自动跟车方法及系统
CN109733415A (zh) * 2019-01-08 2019-05-10 同济大学 一种基于深度强化学习的拟人化自动驾驶跟驰模型

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180094725A (ko) * 2017-02-16 2018-08-24 삼성전자주식회사 자율 주행을 위한 차량 제어 방법, 차량 제어 장치 및 자율 주행을 위한 학습 방법

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107145936A (zh) * 2017-04-22 2017-09-08 大连理工大学 一种基于强化学习的车辆跟驰模型建立方法
CN107179077A (zh) * 2017-05-15 2017-09-19 北京航空航天大学 一种基于elm‑lrf的自适应视觉导航方法
CN108944930A (zh) * 2018-07-05 2018-12-07 合肥工业大学 一种基于lstm的模拟驾驶员特性的自动跟车方法及系统
CN109733415A (zh) * 2019-01-08 2019-05-10 同济大学 一种基于深度强化学习的拟人化自动驾驶跟驰模型

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于优化的卷积神经网络在交通标志识别中的应用;张邯,罗晓曙,袁荣尚;《现代电子技术》;20181101;第41卷(第21期);第132-135页 *

Also Published As

Publication number Publication date
CN110745136A (zh) 2020-02-04

Similar Documents

Publication Publication Date Title
CN110745136B (zh) 一种驾驶自适应控制方法
US11899411B2 (en) Hybrid reinforcement learning for autonomous driving
CN110136481B (zh) 一种基于深度强化学习的停车策略
CN110969848B (zh) 一种对向双车道下基于强化学习的自动驾驶超车决策方法
CN109866752B (zh) 基于预测控制的双模式并行车辆轨迹跟踪行驶系统的方法
CN110060475B (zh) 一种基于深度强化学习的多交叉口信号灯协同控制方法
CN112356830B (zh) 一种基于模型强化学习的智能泊车方法
CN111222630A (zh) 一种基于深度强化学习的自主驾驶规则学习方法
CN114312830B (zh) 一种考虑危险驾驶工况的智能车耦合决策模型及方法
Hecker et al. Learning accurate, comfortable and human-like driving
CN114153213A (zh) 一种基于路径规划的深度强化学习智能车行为决策方法
CN111645673B (zh) 一种基于深度强化学习的自动泊车方法
Yu et al. Autonomous overtaking decision making of driverless bus based on deep Q-learning method
Qiao et al. Behavior planning at urban intersections through hierarchical reinforcement learning
CN114368387B (zh) 一种基于注意力机制的驾驶员意图识别及车辆轨迹预测方法
Liu et al. Mtd-gpt: A multi-task decision-making gpt model for autonomous driving at unsignalized intersections
CN117406756B (zh) 一种运动轨迹参数的确定方法、装置、设备和存储介质
Maramotti et al. Tackling real-world autonomous driving using deep reinforcement learning
Lodhi et al. Autonomous vehicular overtaking maneuver: A survey and taxonomy
WO2021080507A1 (en) Autonomous vehicle control using context aware reward
CN114997048A (zh) 基于探索策略改进的td3算法的自动驾驶车辆车道保持方法
CN115116240A (zh) 一种无信号灯交叉路口车辆协同控制方法及系统
CN114701517A (zh) 基于强化学习的多目标复杂交通场景下自动驾驶解决方法
Yang et al. Decision-making in autonomous driving by reinforcement learning combined with planning & control
CN114954498A (zh) 基于模仿学习初始化的强化学习换道行为规划方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant