CN110196587A - 车辆自动驾驶控制策略模型生成方法、装置、设备及介质 - Google Patents
车辆自动驾驶控制策略模型生成方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN110196587A CN110196587A CN201810163708.7A CN201810163708A CN110196587A CN 110196587 A CN110196587 A CN 110196587A CN 201810163708 A CN201810163708 A CN 201810163708A CN 110196587 A CN110196587 A CN 110196587A
- Authority
- CN
- China
- Prior art keywords
- vehicle
- movement
- condition information
- driving condition
- test
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000011217 control strategy Methods 0.000 title claims abstract description 65
- 238000000034 method Methods 0.000 title claims abstract description 33
- 238000012360 testing method Methods 0.000 claims abstract description 123
- 238000012549 training Methods 0.000 claims abstract description 62
- 230000009471 action Effects 0.000 claims abstract description 34
- 230000006870 function Effects 0.000 claims abstract description 25
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 17
- 238000013135 deep learning Methods 0.000 claims abstract description 9
- 238000004590 computer program Methods 0.000 claims description 14
- 238000012216 screening Methods 0.000 claims description 12
- 230000015654 memory Effects 0.000 claims description 7
- 235000015170 shellfish Nutrition 0.000 claims description 2
- 230000004044 response Effects 0.000 description 8
- 230000003993 interaction Effects 0.000 description 7
- 238000011161 development Methods 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 210000002569 neuron Anatomy 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 239000000446 fuel Substances 0.000 description 2
- 239000002828 fuel tank Substances 0.000 description 2
- 235000003642 hunger Nutrition 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 230000037351 starvation Effects 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 206010039203 Road traffic accident Diseases 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000003915 air pollution Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000002604 ultrasonography Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0212—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
- G05D1/0221—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0212—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
- G05D1/0223—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving speed control of the vehicle
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0255—Control of position or course in two dimensions specially adapted to land vehicles using acoustic signals, e.g. ultra-sonic singals
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0257—Control of position or course in two dimensions specially adapted to land vehicles using a radar
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0276—Control of position or course in two dimensions specially adapted to land vehicles using signals provided by a source external to the vehicle
Landscapes
- Engineering & Computer Science (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Physics & Mathematics (AREA)
- Aviation & Aerospace Engineering (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Acoustics & Sound (AREA)
- Feedback Control In General (AREA)
Abstract
本发明适用计算机技术领域,提供了一种车辆自动驾驶控制策略模型生成方法、装置、设备及介质,该方法包括:采集当前试验时刻试验车辆的驾驶状态信息,通过贝叶斯网络从车辆动作集合中筛选出驾驶状态信息关联的车辆动作,通过奖励回报函数在这些关联的车辆动作中确定最大回报值动作,向试验车辆发送最大回报值动作,并将驾驶状态信息、最大回报值动作、以及最大回报值动作的回报值组合为训练样本,在试验车辆的试验结束时,根据不同试验时刻的训练样本和深度学习算法,训练得到用于车辆自动驾驶的控制策略模型,从而有效地降低了控制策略模型的训练计算开销,提高了车辆自动驾驶的模型训练效率。
Description
技术领域
本发明属于计算机技术领域,尤其涉及一种车辆自动驾驶控制策略模型生成方法、装置、设备及存储介质。
背景技术
随着经济的发展和城镇化的推进,全球汽车保有量和道路里程逐步增加,诸如交通拥堵、交通事故、空气污染、土地资源紧缺等一系列传统汽车无法妥善解决的问题日益凸显。智能汽车技术被视为这些问题的有效解决方案,其发展备受瞩目。美国电气和电子工程师协会(IEEE)预测,至2040年自动驾驶车辆所占的比例将达到75%。
近两年,随着深度强化学习的快速发展,一些科研机构已经基于该技术开发出“端对端”式的自动驾驶算法,比如NVIDIA、comma.ai等科技公司。“端对端”式的自动驾驶算法采用深度网络来构建控制策略模型,深度网络的输入是车辆的高维状态信息,包括摄像头、激光雷达、GPS位置、速度等状态数据,通过深度强化学习的技术,训练深度网络的输出直接作为控制车辆驾驶的动作信号。传统的智能驾驶技术一般基于传感器信号,识别出人类可以理解的模式,然后基于人类驾驶的规则给出合适的控制动作。采用深度强化学习的好处是不需要对车辆的状态基于规则式的识别,它类似“黑盒子”式的反馈控制。然而,高维状态的状态信息和庞大的网络结构,往往消耗大量的计算资源,采用大型的GPU服务器花费几十个小时的训练时间,才有可能得到一个控制策略模型。
发明内容
本发明的目的在于提供一种车辆自动驾驶控制策略模型生成方法、装置、设备及存储介质,旨在解决由于现有技术中车辆自动驾驶控制策略模型生成的计算量较大、效率不高的问题。
一方面,本发明提供了一种车辆自动驾驶控制策略模型生成方法,所述方法包括下述步骤:
采集当前试验时刻试验车辆的驾驶状态信息,根据预先构建的贝叶斯网络,在预设的车辆动作集合中筛选出所述驾驶状态信息关联的车辆动作;
根据预先构建的奖励回报函数,在所述驾驶状态信息关联的车辆动作中确定所述驾驶状态信息对应的最大回报值动作;
向所述试验车辆发送所述最大回报值动作,并将所述驾驶状态信息、所述最大回报值动作以及所述最大回报值动作的回报值组合成训练样本;
判断所述试验车辆的试验是否结束,是则根据不同试验时刻的所述训练样本和预设的深度学习算法,对用于车辆自动驾驶的控制策略模型进行训练,以得到训练好的、用于车辆自动驾驶的控制策略模型,否则跳转至采集当前试验时刻试验车辆的驾驶状态信息的步骤。
另一方面,本发明提供了一种车辆自动驾驶控制策略模型生成装置,所述装置包括:
采集筛选单元,用于采集当前试验时刻试验车辆的驾驶状态信息,根据预先构建的贝叶斯网络,在预设的车辆动作集合中筛选出所述驾驶状态信息关联的车辆动作;
动作确定单元,用于根据预先构建的奖励回报函数,在所述驾驶状态信息关联的车辆动作中确定所述驾驶状态信息对应的最大回报值动作;
样本生成单元,用于向所述试验车辆发送所述最大回报值动作,并将所述驾驶状态信息、所述最大回报值动作以及所述最大回报值动作的回报值组合成训练样本;以及
模型训练单元,用于判断所述试验车辆的试验是否结束,是则根据不同试验时刻的所述训练样本和预设的深度学习算法,对用于车辆自动驾驶的控制策略模型进行训练,以得到训练好的、用于车辆自动驾驶的控制策略模型,否则触发所述采集筛选单元执行采集当前试验时刻试验车辆的驾驶状态信息的步骤。
另一方面,本发明还提供了一种车载设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述车辆自动驾驶控制策略模型生成方法所述的步骤。
另一方面,本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上述车辆自动驾驶控制策略模型生成方法所述的步骤。
本发明采集当前试验时刻试验车辆的驾驶状态信息,通过贝叶斯网络从车辆动作集合中筛选出该驾驶状态信息关联的车辆动作,以避免对车辆动作集合中的所有车辆动作进行遍历,通过奖励回报函数确定这些关联的车辆动作中的最大回报值动作,向试验车辆发送最大回报值动作,并由驾驶状态信息、最大回报值动作和最大回报值动作的回报值构成训练样本,试验结束后,根据不同试验时刻的训练样本和深度学习算法,训练得到用于车辆自动驾驶的控制策略模型,从而通过贝叶斯网络避免对车辆动作集合中的所有车辆动作进行遍历,有效地降低了控制策略模型的训练计算开销,提高了车辆自动驾驶的模型训练效率。
附图说明
图1是本发明实施例一提供的车辆自动驾驶控制策略模型生成方法的实现流程图;
图2是本发明实施例二提供的车辆自动驾驶控制策略模型生成装置的结构示意图;
图3是本发明实施例二提供的车辆自动驾驶控制策略模型生成装置的优选结构示意图;以及
图4是本发明实施例三提供的车载设备的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
以下结合具体实施例对本发明的具体实现进行详细描述:
实施例一:
图1示出了本发明实施例一提供的车辆自动驾驶控制策略模型生成方法的实现流程,为了便于说明,仅示出了与本发明实施例相关的部分,详述如下:
在步骤S101中,采集当前试验时刻试验车辆的驾驶状态信息,根据预先构建的贝叶斯网络,在预设的车辆动作集合中筛选出驾驶状态信息关联的车辆动作。
在本发明实施例中,可在仿真模拟平台上进行车辆自动驾驶的交互试验和车辆自动驾驶控制策略的模型训练,例如开放式赛车模拟器(TORCS,The open racing carsimulation)。在试验中,可通过试验车辆上预设的多个传感器(雷达、超声、视觉等传感器)采集试验车辆的驾驶状态信息,例如,驾驶状态信息包括车离道路中线的距离(trackPos)、车前进方向与道路切向的夹角(angle)、车前方距离探测器的值(track)、以及车在道路切向上的速度分量(speedX)。
在本发明实施例中,在采集到当前试验时刻试验车辆的驾驶状态信息时,需要从车辆动作集合中查找出该驾驶状态信息对应的、较好的动作响应,由于查找出该驾驶状态信息对应的、较好的动作响应,并不需要遍历车辆动作集合中所有的车辆动作(转向角度、加减速度等),因此,可通过预先构建的贝叶斯网络从车辆动作集合中筛选出在该驾驶状态信息下出现概率超过预设概率阈值的车辆动作,将出现概率超过概率阈值的车辆动作设置为该驾驶状态信息关联的车辆动作,后续再从这些关联的车辆动作中查询出该驾驶状态信息对应的、较好的动作相应,从而有效地降低车辆自动驾驶的控制策略模型的训练计算开销。
在本发明实施例中,在构建贝叶斯网络时,可对预先收集的车辆驾驶经验数据(例如,赛车比赛和赛车游戏中的记录数据)中驾驶状态信息下的车辆动作进行概率主观估计,得到驾驶状态信息与车辆动作的贝叶斯网络,贝叶斯网络用来表示不同驾驶状态信息下执行相应车辆动作的概率(即不同车辆动作的出现概率)。作为示例地,表1为对车辆驾驶经验数据中驾驶状态信息下的车辆动作进行概率主观估计后,得到驾驶状态信息下不同车辆动作的出现概率。
表1
在步骤S102中,根据预先构建的奖励回报函数,在驾驶状态信息关联的车辆动作中确定驾驶状态信息对应的最大回报值动作。
在本发明实施例中,可在当前试验时刻的驾驶状态信息所关联的车辆动作中进行遍历,以确定当前试验时刻的驾驶状态信息所对应的、最好的动作响应,为了便于区分,将该动作响应称为最大回报值动作。具体地,通过奖励回报函数分别计算在当前试验时刻的驾驶状态信息下分别执行每个关联的车辆动作所得到的回报值,最大回报值对应的车辆动作可认为是最大回报值动作。
作为示例地,当期望试验车辆能够以较好的行驶速度跟踪道路的中线、且尽量不频繁地猛打方向盘,可以构造如下奖励回报函数:
r=Δdis*cos(α*angle)*sgn(trackPos-threshold),其中,r为奖励回报函数的回报值,Δdis为试验车辆在相邻试验时刻跑过的有效距离,α为预设的权重缩放因子,angle为试验车辆当前行驶方向与道路切向的夹角,trackPos为试验车辆离道路中线的距离,threshold为预设阈值,当trackPos大于threshold时,r为无穷小,可表示对车辆太靠近道路边界时的惩罚。另外,奖励回报函数还可考虑行驶速度、单位耗油量、平稳度等。
在步骤S103中,向试验车辆发送最大回报值动作,并将驾驶状态信息、最大回报值动作以及最大回报值动作的回报值组合成训练样本。
在本发明实施例中,向试验车辆发送最大回报值动作,以便试验车辆执行最大回报值动作,在向试验车辆发送最大回报值动作的同时,可将当前试验时刻的驾驶状态信息、该驾驶状态信息对应的最大回报值动作、以及在驾驶状态信息下执行最大回报值动作所获得的回报值组合成训练样本。
在步骤S104中,判断试验车辆的试验是否结束。
在本发明实施例中,可通过检测车辆在交互试验的驾驶过程中是否发生意外或者是否完成预设的试验驾驶任务,来确定当前的交互试验是否结束,当车辆在驾驶过程中发生意外或者完成预设的试验驾驶任务时,确定当前的交互任务结束,在驾驶过程中发生意外可包括驶出道路、发生碰撞或者油箱缺油等。此外,试验车辆的试验可包括预设数目次(由实验者设置)交互试验。
在本发明实施例中,除初始试验时刻外,每个试验时刻的车辆状态都是上一时刻的车辆状态和车辆动作的结果或函数,例如,用St表示在试验时刻t时的车辆状态信息,则在试验时刻t+1时的车辆状态信息为:
St+1=f(St,at)=f(f(St-1,at-1))=…,其中,at为试验时刻t时的车辆动作信息。因此,当试验车辆的试验结束时,执行步骤S105,否则,跳转至步骤S101,以采集试验车辆执行最大回报值动作后的驾驶状态信息。
在步骤S105中,根据不同试验时刻的训练样本和预设的深度学习算法,对用于车辆自动驾驶的控制策略模型进行训练,以得到训练好的、用于车辆自动驾驶的控制策略模型。
在本发明实施例中,控制策略模型为神经网络模型,其训练过程即学习一个控制策略π:S→A,即在获得车辆的驾驶状态信息后,输出车辆需要执行的车辆动作,并使得车辆在驾驶过程中执行这些车辆动作获得回报值的累积和最大,因此在试验中采集到不同试验时刻的训练样本后,可计算训练样本中每个驾驶状态信息下获得的累计回报值,累计回报值Q(st,at)可通过r0+γr1+γ2r2+…计算,其中,r0、r1、r2等分别为驾驶状态信息St、St+1、St+2下最大回报值动作的回报值,γ为预设参数且0≤γ<1。
在本发明实施例中,在获得每个驾驶状态信息下获得的累计回报值后,可构建控制策略模型,训练样本中的驾驶状态信息、车辆动作都作为控制策略模型的输入,累计回报值作为控制策略模型训练的标签或者标识,以对控制策略模型进行有监督训练。可通过后向传播算法(BackPropagation,BP)或其它的神经网络训练算法对控制策略模型进行训练,在此不做限制。
作为示例地,假设控制策略模型中输入层N个节点x、隐藏层K个节点y、输出层M个节点o,都采用全连接的方式,则隐藏层第k个神经元的输出为:
其中,k=1,2,…,K,输出层第m个神经元的输出为:
其中,m=1,2,…,M。将输入层到隐藏层的权值矩阵、隐藏层到输出层的权值矩阵分别记为二维矩阵W0、W1,输入层的输入记为向量X,隐藏层的输出记为Yh,输出层记为O,则有因此,通过BP算法求神经网络每一层神经元节点输出的运算可以转化为矩阵间运算。在BP算法中神经元节点的激活函数可为任意可微激活函数,例如Sigmoid系(Logistic-Sigmoid、Tanh-Sigmoid)函数、ReLU(Rectified linearunit)函数。在本发明实施例中,可通过判断控制策略模型的训练次数是否达到预设的次数阈值、或判断控制策略模型的输出与相应的累计回报值之差小于预设阈值,来确定控制策略模型是否训练好。
在本发明实施例中,通过贝叶斯网络对车辆动作进行筛选,再在筛选后的车辆动作中确定驾驶状态信息对应的最大回报值动作,根据不同试验时刻的驾驶状态信息、驾驶状态信息对应的最大回报动作、以及最大回报值动作的回报值,训练得到控制策略模型,从而避免对车辆动作集合中的所有车辆动作进行遍历,有效地降低了控制策略模型的训练计算开销,提高了车辆自动驾驶的模型训练效率。
实施例二:
图2示出了本发明实施例二提供的车辆自动驾驶控制策略模型生成装置的结构,为了便于说明,仅示出了与本发明实施例相关的部分,其中包括:
采集筛选单元21,用于采集当前试验时刻试验车辆的驾驶状态信息,根据预先构建的贝叶斯网络,在预设的车辆动作集合中筛选出驾驶状态信息关联的车辆动作。
在本发明实施例中,在采集到当前试验时刻试验车辆的驾驶状态信息时,需要从车辆动作集合中查找出该驾驶状态信息对应的、较好的动作响应,由于查找出该驾驶状态信息对应的、较好的动作响应,并不需要遍历车辆动作集合中所有的车辆动作,因此,可通过预先构建的贝叶斯网络从车辆动作集合中筛选出在该驾驶状态信息下出现概率超过预设概率阈值的车辆动作,将出现概率超过概率阈值的车辆动作设置为该驾驶状态信息关联的车辆动作,后续再从这些关联的车辆动作中查询出该驾驶状态信息对应的、较好的动作相应,从而有效地降低车辆自动驾驶的控制策略模型的训练计算开销。
在本发明实施例中,在构建贝叶斯网络时,可对预先收集的车辆驾驶经验数据中驾驶状态信息下的车辆动作进行概率主观估计,得到驾驶状态信息与车辆动作的贝叶斯网络。
动作确定单元22,用于根据预先构建的奖励回报函数,在驾驶状态信息关联的车辆动作中确定驾驶状态信息对应的最大回报值动作。
在本发明实施例中,可在当前试验时刻的驾驶状态信息所关联的车辆动作中进行遍历,以确定当前试验时刻的驾驶状态信息所对应的、最好的动作响应,为了便于区分,将该动作响应称为最大回报值动作。具体地,通过奖励回报函数分别计算在当前试验时刻的驾驶状态信息下分别执行每个关联的车辆动作所得到的回报值,最大回报值对应的车辆动作可认为是最大回报值动作。
作为示例地,当期望试验车辆能够以较好的行驶速度跟踪道路的中线、且尽量不频繁地猛打方向盘,可以构造如下奖励回报函数:
r=Δdis*cos(α*angle)*sgn(trackPos-threshold),其中,r为奖励回报函数的回报值,Δdis为试验车辆在相邻试验时刻跑过的有效距离,α为预设的权重缩放因子,angle为试验车辆当前行驶方向与道路切向的夹角,trackPos为试验车辆离道路中线的距离,threshold为预设阈值,当trackPos大于threshold时,r为无穷小,可表示对车辆太靠近道路边界时的惩罚。另外,奖励回报函数还可考虑行驶速度、单位耗油量、平稳度等。
样本生成单元23,用于向试验车辆发送最大回报值动作,并将驾驶状态信息、最大回报值动作以及最大回报值动作的回报值组合成训练样本。
在本发明实施例中,向试验车辆发送最大回报值动作,以便试验车辆执行最大回报值动作,在向试验车辆发送最大回报值动作的同时,可将当前试验时刻的驾驶状态信息、该驾驶状态信息对应的最大回报值动作、以及在驾驶状态信息下执行最大回报值动作所获得的回报值组合成训练样本。
模型训练单元24,用于判断试验车辆的试验是否结束,是则根据不同试验时刻的训练样本和预设的深度学习算法,对用于车辆自动驾驶的控制策略模型进行训练,以得到训练好的、用于车辆自动驾驶的控制策略模型,否则触发采集筛选单元21执行采集当前试验时刻试验车辆的驾驶状态信息的步骤。
在本发明实施例中,可通过检测车辆在交互试验的驾驶过程中是否发生意外或者是否完成预设的试验驾驶任务,来确定当前的交互试验是否结束,当车辆在驾驶过程中发生意外或者完成预设的试验驾驶任务时,确定当前的交互任务结束,在驾驶过程中发生意外可包括驶出道路、发生碰撞或者油箱缺油等。此外,试验车辆的试验可包括预设数目次(由实验者设置)交互试验。
在本发明实施例中,当试验车辆的试验没有结束时,继续采集试验车辆执行最大回报值动作后的驾驶状态信息。当试验结束时,可计算训练样本中每个驾驶状态信息下获得的累计回报值,累计回报值Q(st,at)可通过r0+γr1+γ2r2+…计算,其中,r0、r1、r2等分别为驾驶状态信息St、St+1、St+2下最大回报值动作的回报值,γ为预设参数且0≤γ<1。
在本发明实施例中,在获得每个驾驶状态信息下获得的累计回报值后,可构建控制策略模型,训练样本中的驾驶状态信息、车辆动作都作为控制策略模型的输入,累计回报值作为控制策略模型训练的标签或者标识,以对控制策略模型进行有监督训练。可通过后向传播算法或其它的神经网络训练算法对控制策略模型进行训练,在此不做限制。
在本发明实施例中,可通过判断控制策略模型的训练次数是否达到预设的次数阈值、或判断控制策略模型的输出与相应的累计回报值之差小于预设阈值,来确定控制策略模型是否训练好。
优选地,如图3所示,车辆自动驾驶控制策略模型生成装置还包括:
概率估计单元35,用于对预先收集的车辆驾驶经验数据中驾驶状态信息下的车辆动作进行概率主观估计,生成所述贝叶斯网络。
优选地,采集筛选单元21包括:
动作概率确定单元311,用于通过贝叶斯网络确定在驾驶状态信息下车辆动作集合中不同车辆动作的出现概率;以及
关联动作确定单元312,用于将出现概率超过预设概率阈值的车辆动作设置为驾驶状态信息关联的车辆动作。
在本发明实施例中,通过贝叶斯网络对车辆动作进行筛选,再在筛选后的车辆动作中确定驾驶状态信息对应的最大回报值动作,根据不同试验时刻的驾驶状态信息、驾驶状态信息对应的最大回报动作、以及最大回报值动作的回报值,训练得到控制策略模型,从而避免对车辆动作集合中的所有车辆动作进行遍历,有效地降低了控制策略模型的训练计算开销,提高了车辆自动驾驶的模型训练效率。
在本发明实施例中,车辆自动驾驶控制策略模型生成装置的各单元可由相应的硬件或软件单元实现,各单元可以为独立的软、硬件单元,也可以集成为一个软、硬件单元,在此不用以限制本发明。
实施例三:
图4示出了本发明实施例四提供的车载设备的结构,为了便于说明,仅示出了与本发明实施例相关的部分。
本发明实施例的车载设备4包括处理器40、存储器41以及存储在存储器41中并可在处理器40上运行的计算机程序42。该处理器40执行计算机程序42时实现上述方法实施例中的步骤,例如图1所示的步骤S101至S105。或者,处理器40执行计算机程序42时实现上述装置实施例中各单元的功能,例如图2所示单元21至24的功能。
在本发明实施例中,通过贝叶斯网络对车辆动作进行筛选,再在筛选后的车辆动作中确定驾驶状态信息对应的最大回报值动作,根据不同试验时刻的驾驶状态信息、驾驶状态信息对应的最大回报动作、以及最大回报值动作的回报值,训练得到控制策略模型,从而避免对车辆动作集合中的所有车辆动作进行遍历,有效地降低了控制策略模型的训练计算开销,提高了车辆自动驾驶的模型训练效率。
实施例四:
在本发明实施例中,提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述方法实施例中的步骤,例如,图1所示的步骤S101至S105。或者,该计算机程序被处理器执行时实现上述装置实施例中各单元的功能,例如图2所示单元21至24的功能。
在本发明实施例中,通过贝叶斯网络对车辆动作进行筛选,再在筛选后的车辆动作中确定驾驶状态信息对应的最大回报值动作,根据不同试验时刻的驾驶状态信息、驾驶状态信息对应的最大回报动作、以及最大回报值动作的回报值,训练得到控制策略模型,从而避免对车辆动作集合中的所有车辆动作进行遍历,有效地降低了控制策略模型的训练计算开销,提高了车辆自动驾驶的模型训练效率。
本发明实施例的计算机可读存储介质可以包括能够携带计算机程序代码的任何实体或装置、记录介质,例如,ROM/RAM、磁盘、光盘、闪存等存储器。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种车辆自动驾驶控制策略模型生成方法,其特征在于,所述方法包括下述步骤:
采集当前试验时刻试验车辆的驾驶状态信息,根据预先构建的贝叶斯网络,在预设的车辆动作集合中筛选出所述驾驶状态信息关联的车辆动作;
根据预先构建的奖励回报函数,在所述驾驶状态信息关联的车辆动作中确定所述驾驶状态信息对应的最大回报值动作;
向所述试验车辆发送所述最大回报值动作,并将所述驾驶状态信息、所述最大回报值动作以及所述最大回报值动作的回报值组合成训练样本;
判断所述试验车辆的试验是否结束,是则根据不同试验时刻的所述训练样本和预设的深度学习算法,对用于车辆自动驾驶的控制策略模型进行训练,以得到训练好的、用于车辆自动驾驶的控制策略模型,否则跳转至采集当前试验时刻试验车辆的驾驶状态信息的步骤。
2.如权利要求1所述的方法,其特征在于,采集当前试验时刻试验车辆的驾驶状态信息的步骤之前,所述方法还包括:
对预先收集的车辆驾驶经验数据中驾驶状态信息下的车辆动作进行概率主观估计,生成所述贝叶斯网络。
3.如权利要求1所述的方法,其特征在于,在预设的车辆动作集合中筛选出所述驾驶状态信息关联的车辆动作的步骤,包括:
通过所述贝叶斯网络确定在所述驾驶状态信息下所述车辆动作集合中不同车辆动作的出现概率;
将所述出现概率超过预设概率阈值的车辆动作设置为所述驾驶状态信息关联的车辆动作。
4.如权利要求1所述的方法,其特征在于,在所述驾驶状态信息关联的车辆动作中确定所述驾驶状态信息对应的最大回报值动作的步骤,包括:
通过所述奖励回报函数,计算在所述驾驶状态信息下执行所述驾驶状态信息关联的车辆动作所获得的回报值;
将所述驾驶状态信息关联的车辆动作中获得回报值最大的车辆动作设置为所述驾驶状态信息对应的最大回报值动作。
5.如权利要求1所述的方法,其特征在于,对用于车辆自动驾驶的控制策略模型进行训练的步骤,包括:
计算不同试验时刻的所述训练样本所对应的累计回报值;
根据所述深度学习算法、所述训练样本和所述训练样本对应的累计回报值,对所述控制策略模型进行有监督训练。
6.一种车辆自动驾驶控制策略模型生成装置,其特征在于,所述装置包括:
采集筛选单元,用于采集当前试验时刻试验车辆的驾驶状态信息,根据预先构建的贝叶斯网络,在预设的车辆动作集合中筛选出所述驾驶状态信息关联的车辆动作;
动作确定单元,用于根据预先构建的奖励回报函数,在所述驾驶状态信息关联的车辆动作中确定所述驾驶状态信息对应的最大回报值动作;
样本生成单元,用于向所述试验车辆发送所述最大回报值动作,并将所述驾驶状态信息、所述最大回报值动作以及所述最大回报值动作的回报值组合成训练样本;以及
模型训练单元,用于判断所述试验车辆的试验是否结束,是则根据不同试验时刻的所述训练样本和预设的深度学习算法,对用于车辆自动驾驶的控制策略模型进行训练,以得到训练好的、用于车辆自动驾驶的控制策略模型,否则触发所述采集筛选单元执行采集当前试验时刻试验车辆的驾驶状态信息的步骤。
7.如权利要求6所述的装置,其特征在于,所述装置还包括:
概率估计单元,用于对预先收集的车辆驾驶经验数据中驾驶状态信息下的车辆动作进行概率主观估计,生成所述贝叶斯网络。
8.如权利要求6所述的装置,其特征在于,所述采集筛选单元包括:
动作概率确定单元,用于通过所述贝叶斯网络确定在所述驾驶状态信息下所述车辆动作集合中不同车辆动作的出现概率;以及
关联动作确定单元,用于将所述出现概率超过预设概率阈值的车辆动作设置为所述驾驶状态信息关联的车辆动作。
9.一种车载设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810163708.7A CN110196587A (zh) | 2018-02-27 | 2018-02-27 | 车辆自动驾驶控制策略模型生成方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810163708.7A CN110196587A (zh) | 2018-02-27 | 2018-02-27 | 车辆自动驾驶控制策略模型生成方法、装置、设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110196587A true CN110196587A (zh) | 2019-09-03 |
Family
ID=67750902
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810163708.7A Pending CN110196587A (zh) | 2018-02-27 | 2018-02-27 | 车辆自动驾驶控制策略模型生成方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110196587A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111611175A (zh) * | 2020-06-01 | 2020-09-01 | 深圳裹动智驾科技有限公司 | 自动驾驶软件开发方法、服务器端及客户端 |
CN112099496A (zh) * | 2020-09-08 | 2020-12-18 | 苏州浪潮智能科技有限公司 | 一种自动驾驶训练方法、装置、设备及介质 |
CN112201070A (zh) * | 2020-09-29 | 2021-01-08 | 上海交通大学 | 基于深度学习的自动驾车高速公路瓶颈路段行为决策方法 |
CN112258097A (zh) * | 2020-12-23 | 2021-01-22 | 睿至科技集团有限公司 | 一种基于大数据的辅助驾驶方法和系统 |
CN112269385A (zh) * | 2020-10-23 | 2021-01-26 | 北京理工大学 | 云端无人车动力学控制系统和方法 |
TWI745120B (zh) * | 2019-10-18 | 2021-11-01 | 日商豐田自動車股份有限公司 | 車輛控制系統、車輛控制裝置及用於車輛之控制方法 |
CN113807503A (zh) * | 2021-09-28 | 2021-12-17 | 中国科学技术大学先进技术研究院 | 适用于智能汽车的自主决策方法及系统、装置、终端 |
CN114435395A (zh) * | 2021-12-31 | 2022-05-06 | 赛可智能科技(上海)有限公司 | 自动驾驶的方法、装置、设备、介质及计算机程序产品 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102402712A (zh) * | 2011-08-31 | 2012-04-04 | 山东大学 | 基于神经网络的机器人强化学习初始化方法 |
CN102819264A (zh) * | 2012-07-30 | 2012-12-12 | 山东大学 | 移动机器人路径规划q学习初始化方法 |
US20170261947A1 (en) * | 2016-03-11 | 2017-09-14 | Toyota Jidosha Kabushiki Kaisha | Information providing device and non-transitory computer readable medium storing information providing program |
CN107169567A (zh) * | 2017-03-30 | 2017-09-15 | 深圳先进技术研究院 | 一种用于车辆自动驾驶的决策网络模型的生成方法及装置 |
CN107168303A (zh) * | 2017-03-16 | 2017-09-15 | 中国科学院深圳先进技术研究院 | 一种汽车的自动驾驶方法及装置 |
-
2018
- 2018-02-27 CN CN201810163708.7A patent/CN110196587A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102402712A (zh) * | 2011-08-31 | 2012-04-04 | 山东大学 | 基于神经网络的机器人强化学习初始化方法 |
CN102819264A (zh) * | 2012-07-30 | 2012-12-12 | 山东大学 | 移动机器人路径规划q学习初始化方法 |
US20170261947A1 (en) * | 2016-03-11 | 2017-09-14 | Toyota Jidosha Kabushiki Kaisha | Information providing device and non-transitory computer readable medium storing information providing program |
CN107168303A (zh) * | 2017-03-16 | 2017-09-15 | 中国科学院深圳先进技术研究院 | 一种汽车的自动驾驶方法及装置 |
CN107169567A (zh) * | 2017-03-30 | 2017-09-15 | 深圳先进技术研究院 | 一种用于车辆自动驾驶的决策网络模型的生成方法及装置 |
Non-Patent Citations (5)
Title |
---|
H. KAWANO等: "Fast reinforcement learning algorithm for motion planning of nonholonomic autonomous underwater vehicle in disturbance", 《IEEE/RSJ INTERNATIONAL CONFERENCE ON INTELLIGENT ROBOTS AND SYSTEMS》 * |
TOSHIYUKI YASUDA等: "a homogeneous mobile robot team that is fault-tolerant", 《ADVANCED ENGINEERING INFORMATICS》 * |
张俊友等: "《智能交通系统及应用》", 31 August 2017 * |
张江石: "《行为安全管理中的数学模型及应用》", 29 February 2016 * |
陈飞等: "贝叶斯学习与强化学习结合技术的研究", 《计算机科学》 * |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI745120B (zh) * | 2019-10-18 | 2021-11-01 | 日商豐田自動車股份有限公司 | 車輛控制系統、車輛控制裝置及用於車輛之控制方法 |
US11691639B2 (en) | 2019-10-18 | 2023-07-04 | Toyota Jidosha Kabushiki Kaisha | Vehicle control system, vehicle control device, and control method for a vehicle |
CN111611175B (zh) * | 2020-06-01 | 2023-05-26 | 深圳安途智行科技有限公司 | 自动驾驶软件开发方法、服务器端及客户端 |
CN111611175A (zh) * | 2020-06-01 | 2020-09-01 | 深圳裹动智驾科技有限公司 | 自动驾驶软件开发方法、服务器端及客户端 |
CN112099496B (zh) * | 2020-09-08 | 2023-03-21 | 苏州浪潮智能科技有限公司 | 一种自动驾驶训练方法、装置、设备及介质 |
CN112099496A (zh) * | 2020-09-08 | 2020-12-18 | 苏州浪潮智能科技有限公司 | 一种自动驾驶训练方法、装置、设备及介质 |
CN112201070A (zh) * | 2020-09-29 | 2021-01-08 | 上海交通大学 | 基于深度学习的自动驾车高速公路瓶颈路段行为决策方法 |
CN112269385A (zh) * | 2020-10-23 | 2021-01-26 | 北京理工大学 | 云端无人车动力学控制系统和方法 |
CN112258097B (zh) * | 2020-12-23 | 2021-03-26 | 睿至科技集团有限公司 | 一种基于大数据的辅助驾驶方法和系统 |
CN112258097A (zh) * | 2020-12-23 | 2021-01-22 | 睿至科技集团有限公司 | 一种基于大数据的辅助驾驶方法和系统 |
CN113807503A (zh) * | 2021-09-28 | 2021-12-17 | 中国科学技术大学先进技术研究院 | 适用于智能汽车的自主决策方法及系统、装置、终端 |
CN113807503B (zh) * | 2021-09-28 | 2024-02-09 | 中国科学技术大学先进技术研究院 | 适用于智能汽车的自主决策方法及系统、装置、终端 |
CN114435395A (zh) * | 2021-12-31 | 2022-05-06 | 赛可智能科技(上海)有限公司 | 自动驾驶的方法、装置、设备、介质及计算机程序产品 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107169567B (zh) | 一种用于车辆自动驾驶的决策网络模型的生成方法及装置 | |
CN110196587A (zh) | 车辆自动驾驶控制策略模型生成方法、装置、设备及介质 | |
Kuefler et al. | Imitating driver behavior with generative adversarial networks | |
Li et al. | Humanlike driving: Empirical decision-making system for autonomous vehicles | |
CN111061277B (zh) | 一种无人车全局路径规划方法和装置 | |
CN106023344B (zh) | 基于驾驶模式转换概率的驾驶风格估计方法 | |
WO2022052406A1 (zh) | 一种自动驾驶训练方法、装置、设备及介质 | |
CN112133089B (zh) | 一种基于周围环境与行为意图的车辆轨迹预测方法、系统及装置 | |
CN107229973A (zh) | 一种用于车辆自动驾驶的策略网络模型的生成方法及装置 | |
CN112232490B (zh) | 一种基于视觉的深度模仿强化学习驾驶策略训练方法 | |
CN113044064B (zh) | 基于元强化学习的车辆自适应的自动驾驶决策方法及系统 | |
CN107310550A (zh) | 道路交通工具行驶控制方法和装置 | |
CN114446049B (zh) | 基于社会价值取向的交通流预测方法、系统、终端及介质 | |
Bolovinou et al. | Driving style recognition for co-operative driving: A survey | |
CN109118787A (zh) | 一种基于深度神经网络的车辆速度预测方法 | |
CN109466552A (zh) | 智能驾驶车道保持方法及系统 | |
Yu et al. | Autonomous overtaking decision making of driverless bus based on deep Q-learning method | |
Harkous et al. | A two-stage machine learning method for highly-accurate drunk driving detection | |
Lu et al. | A sharing deep reinforcement learning method for efficient vehicle platooning control | |
CN115062202A (zh) | 驾驶行为意图及轨迹的预测方法、装置、设备及存储介质 | |
CN114446046A (zh) | 一种基于lstm模型的弱势交通参与者轨迹预测方法 | |
Hao et al. | Aggressive lane-change analysis closing to intersection based on UAV video and deep learning | |
CN116448134B (zh) | 基于风险场与不确定分析的车辆路径规划方法及装置 | |
CN116300944A (zh) | 基于改进Double DQN的自动驾驶决策方法及系统 | |
CN115440041A (zh) | 一种路侧视角下的重点车辆驾驶行为预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190903 |
|
RJ01 | Rejection of invention patent application after publication |