CN113807503B - 适用于智能汽车的自主决策方法及系统、装置、终端 - Google Patents
适用于智能汽车的自主决策方法及系统、装置、终端 Download PDFInfo
- Publication number
- CN113807503B CN113807503B CN202111142980.5A CN202111142980A CN113807503B CN 113807503 B CN113807503 B CN 113807503B CN 202111142980 A CN202111142980 A CN 202111142980A CN 113807503 B CN113807503 B CN 113807503B
- Authority
- CN
- China
- Prior art keywords
- network
- action
- training
- current
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 22
- 230000009471 action Effects 0.000 claims abstract description 65
- 238000012549 training Methods 0.000 claims abstract description 45
- 238000011478 gradient descent method Methods 0.000 claims abstract description 11
- 230000006399 behavior Effects 0.000 claims description 30
- 238000013527 convolutional neural network Methods 0.000 claims description 29
- 238000013528 artificial neural network Methods 0.000 claims description 20
- 230000008859 change Effects 0.000 claims description 5
- 238000005070 sampling Methods 0.000 claims description 4
- 230000001133 acceleration Effects 0.000 claims description 3
- 238000009825 accumulation Methods 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 230000009286 beneficial effect Effects 0.000 abstract description 3
- 230000008569 process Effects 0.000 abstract description 2
- 230000007547 defect Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 206010063385 Intellectualisation Diseases 0.000 description 1
- 238000003915 air pollution Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000000446 fuel Substances 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Feedback Control In General (AREA)
- Traffic Control Systems (AREA)
Abstract
本发明提供了一种适用于智能汽车的自主决策方法,包括根据状态选择动作集合A中的动作,得到下一个状态,然后计算出回报R,在Double DQN框架下,给当前Q网络与目标Q网络构建相同的CNN网络用于训练;利用贪婪策略选择动作获得待训练的样本,动作从步骤S1中的动作集合A中选择,样本构成reply池;待样本达到设定数量后,从reply池中根据设定阈值选择样本,随后进行训练,根据梯度下降法,由当前Q网络与目标Q网络之间误差进行反向传播优化当前Q网络参数;样本训练之后应用至载体进行自主决策。本发明对不同信息构建不同网络,有利于保证各种信息的本质特征,避免所有信息通过同一网络,特征混杂难以处理。
Description
技术领域
本发明涉及自动驾驶技术领域,具体地,涉及一种适用于智能汽车的自主决策方法及系统、装置、终端。
背景技术
近年来,随着以人工智能为代表的新一轮科技革命的崛起,推动了传统制造业进入快速转型升级发展。传统的汽车产业作为各类先进机电系统技术集成的典型代表,其智能化也随着这轮科技革命逐渐成为发展趋势,成为研究热点。同时,自动驾驶汽车也为解决汽车交通安全、交通拥堵、燃油消耗和空气污染问题提供了新的解决方案。
驾驶行为决策是智能车的重要功能模块,也是自主驾驶技术研究的重点和难点。驾驶行为决策是根据感知系统得到的环境信息和当前的车辆状态做出安全合理的驾驶操作,比如车辆跟驰、换道、超车、汇入车流等,其性能好坏是衡量智能车辆智能化水平的重要指标。
现有技术中对驾驶决策行为采用的是基于规则的技术方案,存在的缺点是鲁棒性不足,本申请对技术方案的决策方法进行了改进,解决了现有技术不能解决的鲁棒性不足的技术问题,将现有技术方案应用到本申请中也不能解决,是因为现有技术无法实现对实际环境的精确模拟。
经过检索,专利文献CN110406530B公开了一种自动驾驶方法、装置、设备和车辆。包括:获取环境感知数据和车辆状态参数;将所述环境感知数据和车辆状态参数输入第一动作参数识别模型进行离散型动作参数识别,得到离散型动作的目标参数;将所述环境感知数据和车辆状态参数输入第二动作参数识别模型进行连续型动作参数识别,得到连续型动作的目标参数;当所述离散型动作的目标参数和所述连续型动作的目标参数匹配时,基于所述连续型动作的目标参数和所述离散型动作的目标参数控制车辆自动驾驶。该现有技术是基于车辆的驾驶数据和建立的学习模型实现车辆自动驾驶的端对端训练,实现车辆在复杂场景中离散型动作和连续型动作的控制参数的输出、匹配和同步;但是不足之处在于如何合理的离散化连续型模型,或者如何直接构建合理的离散型模型是十分困难的。
专利文献CN110893860B公开了一种智能驾驶方法及智能驾驶系统,包括:获取车辆当前时刻的特征参数以及车辆在未来预设时间段内驾驶场景的道路属性;其中,所述特征数可以包括结构化语义信息、道路属性以及交通态势频谱;比较当前时刻的特征参数与场景特征库中标准场景的特征参数,以及比较车辆在未来预设时间段内驾驶场景的道路属性与场景特征库中标准场景的道路属性,根据比较结果确定每个场景类与所述车辆当前时刻的驾驶场景的总相似度;将N个场景类中总相似度最高的第一场景类确定为当前时刻的驾驶场景;根据确定结果控制车辆进行智能驾驶。该现有技术的不足之处在于为特征参数和道路属性等都是基于规则制定者的经验选定,鲁棒性不足。
因此,亟需研发设计一种对不同信息通过不同网络进行处理实现自主决策的方法和系统。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种适用于智能汽车的自主决策方法及系统、装置、终端。
根据本发明提供的一种适用于智能汽车的自主决策方法,包括如下步骤:
步骤S1:构建驾驶行为的状态集合S、驾驶行为的动作集合A和驾驶行为的回报集合R,根据状态选择动作集合A中的动作,得到下一个状态,然后计算出回报R,在Double DQN框架下,给当前Q网络与目标Q网络构建相同的CNN网络用于训练;
步骤S2:利用贪婪策略选择动作获得待训练的样本,动作从步骤S1中的动作集合A中选择,样本构成reply池;
步骤S3:待样本达到设定数量后,从reply池中根据设定阈值选择样本,随后进行训练,根据梯度下降法,由当前Q网络与目标Q网络之间误差进行反向传播优化当前Q网络参数;
步骤S4:样本训练之后应用至载体进行自主决策。
优选地,步骤S1中驾驶行为的状态集合S包括智能汽车采集的速度与距离信息;驾驶行为的动作集合A包括加速、减速、车道保持、左变道和右变道信息;
训练在Double DQN框架下,给当前Q网络与目标Q网络构建相同的CNN网络。
优选地,步骤S1中驾驶行为的回报集合R包括:
rsum=rcol+rleft+rlc+rspeed;
其中,vmax为允许的最大速度;vmin为允许的最小速度;rleft为左车道奖励;rcol为相撞惩罚;rspeed为根据速度大小归一化后得到奖励;rlc为车道变化惩罚。
优选地,步骤S2中获得待训练的样本放入reply池进行积累,在reply池中获取训练集。
优选地,步骤S3中采用CNN深度神经网络进行样本训练,包括:
步骤S3.1:初始化CNN深度神经网络参数;
步骤S3.2:针对大于设定阈值的样本在被多次抽取训练后舍弃,针对小于设定阈值的样本在抽样后即被舍弃;
步骤S3.3:根据输入信息匹配不同的CNN深度神经网络进行训练;
步骤S3.4:求取CNN深度神经网络的损失值,两个网络间的损失值用于反向传播来优化当前Q网络;
步骤S3.5:利用梯度下降法优化CNN深度神经网络参数,当前值神经网络每优化N轮,将CNN深度神经网络参数复制给目标Q网络即决策网络;
优选地,步骤S3.4中损失值计算为:
loss=(y-Q(s,a;θ))2
式中,r为下一个状态返回奖励,γ为折扣系数,Q(s,a;θ)为当前Q网络的Q值,Q(s,a;θ′)为目标Q网络的Q值。
优选地,步骤S4中输入所需信息,将信息输入所训练CNN网络即可得到动作集合A中的动作所对应的Q值,选择Q值最大的动作,车辆根据动作行动,实现自动驾驶。
根据本发明提供的一种适用于智能汽车的自主决策系统,包括:
信息获取与构建模块:构建驾驶行为的状态集合S、驾驶行为的动作集合A和驾驶行为的回报集合R,根据状态选择动作集合A中的动作,得到下一个状态,然后计算出回报R,在Double DQN框架下,给当前Q网络与目标Q网络构建相同的CNN网络用于训练;
训练样本采集模块:利用贪婪策略选择动作获得待训练的样本,动作从步骤S1中的动作集合A中选择,样本构成reply池;
样本训练模块:待样本达到设定数量后,从reply池中根据设定阈值选择样本,随后进行训练,根据梯度下降法,由当前Q网络与目标Q网络之间误差进行反向传播优化当前Q网络参数;
决策模块:样本训练之后应用至载体进行自主决策。
根据本发明提供的一种适用于智能汽车的自主决策装置,使用上述任一种适用于智能汽车的自主决策方法进行自主决策。
根据本发明提供的一种智能终端,包括上述的适用于智能汽车的自主决策装置。
与现有技术相比,本发明具有如下的有益效果:
1、本发明通过对不同信息构建不同网络,有利于保证各种信息的本质特征,避免所有信息通过同一网络,特征混杂难以处理。
2、本发明通过构建不同网络,有利于减少预测时间,各种信息并行处理,最终汇总,提高预测准确度,减少预测时间。
3、本发明对reply池进行改进,根据阈值判别是否为成功样本,成功样本比失败样本在reply池中存在几率更大,提高训练效果。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明中适用于智能汽车的自主决策方法的步骤流程图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
如图1所示,本发明提供了一种适用于智能汽车的自主决策方法,包括如下步骤:
步骤S1:构建驾驶行为的状态集合S、驾驶行为的动作集合A和驾驶行为的回报集合R,根据状态选择动作集合A中的动作,得到下一个状态,然后计算出回报R,在Double DQN框架下,给当前Q网络与目标Q网络构建相同的CNN网络用于训练。
具体地,步骤S1中驾驶行为的状态集合S包括智能汽车采集的速度与距离信息;驾驶行为的动作集合A包括加速、减速、车道保持、左变道和右变道信息。
训练在Double DQN框架下,给当前Q网络与目标Q网络构建相同的CNN网络。驾驶行为的回报集合R包括:
rsum=rcol+rleft+rlc+rspeed;
其中,vmax为允许的最大速度;vmin为允许的最小速度;rleft为左车道奖励;rcol为相撞惩罚;rspeed为根据速度大小归一化后得到奖励;rlc为车道变化惩罚,尽可能少变化车道,保证安全。
步骤S2:利用贪婪策略选择动作获得待训练的样本,动作从步骤S1中的动作集合A中选择,样本构成reply池;获得待训练的样本放入reply池进行积累,在reply池中获取训练集。
根据上式选择动作,获得下一步状态s‘,将(a,s,s‘,r)作为一组样本存入reply池。∈的值随着训练次数的增加逐渐减小,以便于更加可能选择正确的动作而不是探索环境。设定εmin作为下限,使总有能力探索环境。
步骤S3:待样本达到设定数量后,从reply池中根据设定阈值选择样本,随后进行训练,根据梯度下降法,由当前Q网络与目标Q网络之间误差进行反向传播优化当前Q网络参数。具体地:
步骤S3.1:初始化CNN深度神经网络参数;
步骤S3.2:针对大于设定阈值的样本在被多次抽取训练后舍弃,针对小于设定阈值的样本在抽样后即被舍弃。特别地,对reward大于阈值的样本,在reply池中会被抽取至多两次训练后舍弃,而reward小于阈值的样本在抽样后就会被舍弃。阈值取当回合训练结果的reward-0.5。
步骤S3.3:根据输入信息匹配不同的CNN深度神经网络进行训练;根据信息的类型,如图像,速度和位置信息等,构建不同的网络。图像信息利用多层二维卷积网络进行处理,而速度位置信息可以利用层数较少的一维卷积网络处理。
步骤S3.4:求取CNN深度神经网络的损失值,两个网络间的损失值用于反向传播来优化当前Q网络。损失值计算为:
loss=(y-Q(s,a;θ))2
式中,r为下一个状态返回奖励,γ为折扣系数,Q(s,a;θ)为当前Q网络的Q值,Q(s,a;θ′)为目标Q网络的Q值。
步骤S3.5:利用梯度下降法优化CNN深度神经网络参数,当前值神经网络每优化N轮,将CNN深度神经网络参数复制给目标Q网络即决策网络。
令L(θ)=∑(y-Q(s,a;θ))2,对其求导
利用梯度下降法对θ进行优化直至L(θ)达到最小值。
步骤S4:样本训练之后应用至载体进行自主决策。输入所需信息,将信息输入所训练CNN网络即可得到动作集合A中的动作所对应的Q值,选择Q值最大的动作,车辆根据动作行动,实现自动驾驶。
本发明还提供了一种适用于智能汽车的自主决策系统,包括:
信息获取与构建模块:构建驾驶行为的状态集合S、驾驶行为的动作集合A和驾驶行为的回报集合R,根据状态选择动作集合A中的动作,得到下一个状态,然后计算出回报R,在Double DQN框架下,给当前Q网络与目标Q网络构建相同的CNN网络用于训练;
训练样本采集模块:利用贪婪策略选择动作获得待训练的样本,动作从步骤S1中的动作集合A中选择,样本构成reply池;
样本训练模块:待样本达到设定数量后,从reply池中根据设定阈值选择样本,随后进行训练,根据梯度下降法,由当前Q网络与目标Q网络之间误差进行反向传播优化当前Q网络参数;
决策模块:样本训练之后应用至载体进行自主决策。
本发明又提供了一种适用于智能汽车的自主决策装置,使用上述任一种适用于智能汽车的自主决策方法进行自主决策。
本发明继续提供了一种智能终端,包括上述的适用于智能汽车的自主决策装置。
本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个装置、模块、单元以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置、模块、单元以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以,本发明提供的系统及其各项装置、模块、单元可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置、模块、单元也可以视为硬件部件内的结构;也可以将用于实现各种功能的装置、模块、单元视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。
Claims (5)
1.一种适用于智能汽车的自主决策方法,其特征在于,包括如下步骤:
步骤S1:构建驾驶行为的状态集合S、驾驶行为的动作集合A和驾驶行为的回报集合R,根据状态选择动作集合A中的动作,得到下一个状态,然后计算出回报R,在Double DQN框架下,给当前Q网络与目标Q网络构建相同的CNN网络用于训练;
步骤S2:利用贪婪策略选择动作获得待训练的样本,动作从步骤S1中的动作集合A中选择,样本构成reply池;
步骤S3:待样本达到设定数量后,从reply池中根据设定阈值选择样本,随后进行训练,根据梯度下降法,由当前Q网络与目标Q网络之间误差进行反向传播优化当前Q网络参数;
步骤S4:样本训练之后应用至载体进行自主决策;
所述步骤S1中驾驶行为的状态集合S包括智能汽车采集的速度与距离信息;驾驶行为的动作集合A包括加速、减速、车道保持、左变道和右变道信息;
训练在Double DQN框架下,给当前Q网络与目标Q网络构建相同的CNN网络;
所述步骤S1中驾驶行为的回报集合R包括:
rsum=rcol+rleft+rlc+rspeed;
其中,vmax为允许的最大速度;vmin为允许的最小速度;rleft为左车道奖励;rcol为相撞惩罚;rspeed为根据速度大小归一化后得到奖励;rlc为车道变化惩罚;
所述步骤S3中采用CNN深度神经网络进行样本训练,包括:
步骤S3.1:初始化CNN深度神经网络参数;
步骤S3.2:针对大于设定阈值的样本在被多次抽取训练后舍弃,针对小于设定阈值的样本在抽样后即被舍弃;
步骤S3.3:根据输入信息的类型匹配不同的CNN深度神经网络进行训练;
步骤S3.4:求取CNN深度神经网络的损失值,两个网络间的损失值用于反向传播来优化当前Q网络;
步骤S3.5:利用梯度下降法优化CNN深度神经网络参数,当前值神经网络每优化N轮,将CNN深度神经网络参数复制给目标Q网络即决策网络;
所述步骤S4中输入所需信息,将信息输入所训练CNN网络即可得到动作集合A中的动作所对应的Q值,选择Q值最大的动作,车辆根据动作行动,实现自动驾驶。
2.根据权利要求1所述的适用于智能汽车的自主决策方法,其特征在于,所述步骤S2中获得待训练的样本放入reply池进行积累,在reply池中获取训练集。
3.一种适用于智能汽车的自主决策系统,其特征在于,基于如权利要求1所述的适用于智能汽车的自主决策的方法,包括:
信息获取与构建模块:构建驾驶行为的状态集合S、驾驶行为的动作集合A和驾驶行为的回报集合R,根据状态选择动作集合A中的动作,得到下一个状态,然后计算出回报R,在Double DQN框架下,给当前Q网络与目标Q网络构建相同的CNN网络用于训练;
训练样本采集模块:利用贪婪策略选择动作获得待训练的样本,动作从步骤S1中的动作集合A中选择,样本构成reply池;
样本训练模块:待样本达到设定数量后,从reply池中根据设定阈值选择样本,随后进行训练,根据梯度下降法,由当前Q网络与目标Q网络之间误差进行反向传播优化当前Q网络参数;
决策模块:样本训练之后应用至载体进行自主决策。
4.一种适用于智能汽车的自主决策装置,其特征在于,使用权利要求1至2中任一项所述
的适用于智能汽车的自主决策方法进行自主决策。
5.一种智能终端,其特征在于,包括权利要求4所述的适用于智能汽车的自主决策装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111142980.5A CN113807503B (zh) | 2021-09-28 | 2021-09-28 | 适用于智能汽车的自主决策方法及系统、装置、终端 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111142980.5A CN113807503B (zh) | 2021-09-28 | 2021-09-28 | 适用于智能汽车的自主决策方法及系统、装置、终端 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113807503A CN113807503A (zh) | 2021-12-17 |
CN113807503B true CN113807503B (zh) | 2024-02-09 |
Family
ID=78938656
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111142980.5A Active CN113807503B (zh) | 2021-09-28 | 2021-09-28 | 适用于智能汽车的自主决策方法及系统、装置、终端 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113807503B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107169567A (zh) * | 2017-03-30 | 2017-09-15 | 深圳先进技术研究院 | 一种用于车辆自动驾驶的决策网络模型的生成方法及装置 |
CN110196587A (zh) * | 2018-02-27 | 2019-09-03 | 中国科学院深圳先进技术研究院 | 车辆自动驾驶控制策略模型生成方法、装置、设备及介质 |
CN110363295A (zh) * | 2019-06-28 | 2019-10-22 | 电子科技大学 | 一种基于dqn的智能车多车道换道方法 |
CN111461321A (zh) * | 2020-03-12 | 2020-07-28 | 南京理工大学 | 基于Double DQN的改进深度强化学习方法及系统 |
CN111898211A (zh) * | 2020-08-07 | 2020-11-06 | 吉林大学 | 基于深度强化学习的智能车速度决策方法及其仿真方法 |
CN112418237A (zh) * | 2020-12-07 | 2021-02-26 | 苏州挚途科技有限公司 | 车辆驾驶决策方法、装置及电子设备 |
CN113264031A (zh) * | 2021-07-07 | 2021-08-17 | 重庆大学 | 基于路面识别与深度强化学习的混合动力系统控制方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10739776B2 (en) * | 2017-10-12 | 2020-08-11 | Honda Motor Co., Ltd. | Autonomous vehicle policy generation |
-
2021
- 2021-09-28 CN CN202111142980.5A patent/CN113807503B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107169567A (zh) * | 2017-03-30 | 2017-09-15 | 深圳先进技术研究院 | 一种用于车辆自动驾驶的决策网络模型的生成方法及装置 |
CN110196587A (zh) * | 2018-02-27 | 2019-09-03 | 中国科学院深圳先进技术研究院 | 车辆自动驾驶控制策略模型生成方法、装置、设备及介质 |
CN110363295A (zh) * | 2019-06-28 | 2019-10-22 | 电子科技大学 | 一种基于dqn的智能车多车道换道方法 |
CN111461321A (zh) * | 2020-03-12 | 2020-07-28 | 南京理工大学 | 基于Double DQN的改进深度强化学习方法及系统 |
CN111898211A (zh) * | 2020-08-07 | 2020-11-06 | 吉林大学 | 基于深度强化学习的智能车速度决策方法及其仿真方法 |
CN112418237A (zh) * | 2020-12-07 | 2021-02-26 | 苏州挚途科技有限公司 | 车辆驾驶决策方法、装置及电子设备 |
CN113264031A (zh) * | 2021-07-07 | 2021-08-17 | 重庆大学 | 基于路面识别与深度强化学习的混合动力系统控制方法 |
Non-Patent Citations (5)
Title |
---|
Development of an Efficient Driving Strategy for Connected and Automated Vehicles at Signalized Intersections: A Reinforcement Learning Approach;Mofan Zhou等;《IEEE Transactions on Intelligent Transportation Systems》;第21卷(第1期);第433-443页 * |
Lane Change of Vehicles Based on DQN;LiMing Yi;《2020 5th International Conference on Information Science, Computer Technology and Transportation (ISCTT)》;第593-597页 * |
一种车载服务的快速深度Q学习网络边云迁移策略;彭军等;《电子与信息学报》;第42卷(第1期);第58-64页 * |
基于强化学习的列车自动驾驶方法研究;张淼;《中国博士学位论文全文数据库 工程科技Ⅱ辑》(第1期);第C033-34页 * |
用于图像目标检测的深度Q学习算法;高洪波等;《2019第七届中国指挥控制大会论文集》;第425-431页 * |
Also Published As
Publication number | Publication date |
---|---|
CN113807503A (zh) | 2021-12-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112201069B (zh) | 基于深度强化学习的驾驶员纵向跟车行为模型构建方法 | |
CN109993082A (zh) | 卷积神经网络道路场景分类与道路分割方法 | |
CN110263786B (zh) | 一种基于特征维度融合的道路多目标识别系统及方法 | |
CN108460427B (zh) | 一种分类模型训练方法、装置以及分类方法及装置 | |
CN114358128A (zh) | 一种训练端到端的自动驾驶策略的方法 | |
CN114162146B (zh) | 行驶策略模型训练方法以及自动驾驶的控制方法 | |
CN111260027A (zh) | 一种基于强化学习的智能体自动决策方法 | |
WO2022007867A1 (zh) | 神经网络的构建方法和装置 | |
CN113044064A (zh) | 基于元强化学习的车辆自适应的自动驾驶决策方法及系统 | |
CN113362491A (zh) | 一种车辆轨迹预测及驾驶行为分析方法 | |
CN115578876A (zh) | 一种车辆的自动驾驶方法、系统、设备及存储介质 | |
CN115272994B (zh) | 自动驾驶预测模型训练方法、装置、终端及介质 | |
CN109446897B (zh) | 基于图像上下文信息的场景识别方法及装置 | |
CN115546576A (zh) | 建立预测模型的方法及装置 | |
CN111950393A (zh) | 一种基于边界搜索智能体的时序动作片段分割方法 | |
CN113561995A (zh) | 一种基于多维奖励架构深度q学习的自动驾驶决策方法 | |
Wang et al. | Collision risk rating of traffic scene from dashboard cameras | |
CN113807503B (zh) | 适用于智能汽车的自主决策方法及系统、装置、终端 | |
US20240037918A1 (en) | Multi-view fine-grained identification method, apparatus, electronic device and medium | |
CN112193245A (zh) | 一种考虑驾驶员模糊感知的深度学习跟驰预测方法 | |
CN117237475A (zh) | 一种基于扩散生成模型的车辆交通轨迹生成方法及装置 | |
CN113420706B (zh) | 一种基于多层特征融合的车辆检测方法 | |
CN116311156A (zh) | 基于sml-yolov5的行驶途中被遮挡车辆的识别方法及装置 | |
Brosowsky et al. | Joint vehicle trajectory and cut-in prediction on highways using output constrained neural networks | |
CN115147812A (zh) | 车道线检测方法、装置、车辆和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |