CN107168303A - 一种汽车的自动驾驶方法及装置 - Google Patents

一种汽车的自动驾驶方法及装置 Download PDF

Info

Publication number
CN107168303A
CN107168303A CN201710156331.8A CN201710156331A CN107168303A CN 107168303 A CN107168303 A CN 107168303A CN 201710156331 A CN201710156331 A CN 201710156331A CN 107168303 A CN107168303 A CN 107168303A
Authority
CN
China
Prior art keywords
automobile
driver behavior
network model
immediately
return value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710156331.8A
Other languages
English (en)
Inventor
夏伟
李慧云
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Institute of Advanced Technology of CAS
Original Assignee
Shenzhen Institute of Advanced Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Institute of Advanced Technology of CAS filed Critical Shenzhen Institute of Advanced Technology of CAS
Priority to CN201710156331.8A priority Critical patent/CN107168303A/zh
Publication of CN107168303A publication Critical patent/CN107168303A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0217Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory in accordance with energy consumption, time reduction or distance reduction criteria

Abstract

本发明适用汽车自动驾驶技术领域,提供了汽车的自动驾驶方法及装置,该方法包括:通过汽车上预设的传感器获取汽车当前位置的汽车状态;根据汽车状态和预先建立的策略网络模型,获取汽车当前可用驾驶动作的回报值,策略网络模型通过预设的深度强化学习算法建立;将回报值中的最大回报值对应的当前可用驾驶动作设置为汽车下一执行动作并执行,从而在面临驾驶场景类别多样、路况复杂时及时、有效地获取到较优的驾驶动作并执行,实现汽车的自动驾驶。

Description

一种汽车的自动驾驶方法及装置
技术领域
本发明属于汽车自动驾驶技术领域,尤其涉及一种汽车的自动驾驶方法及装置。
背景技术
近年来,随着经济的发展和城镇化的推进,全球汽车保有量和道路里程逐步增加,诸如交通拥堵、事故、污染、土地资源紧缺等一系列传统汽车无法妥善解决的问题日益凸显。智能汽车技术被视为有效解决方案,其发展备受瞩目。美国电气和电子工程师协会(IEEE)预测,至2040年自动驾驶车辆所占的比例将达到75%。
市面上已经出现了多种用于辅助驾驶系统的传感器和产品,比如:激光雷达、自适应巡航系统、车辆接近通报装置、夜视辅助装置、自适应前照明系统等,而目前辅助驾驶系统中使用的控制方法都是基于规则的控制决策,即根据已知的驾驶经验,构建对车况信息输出控制决策的专家规则系统。然而,自动驾驶场景类别多样,路况复杂,自动驾驶中高度复杂的场景很难用有限的规则来定义清楚,因此,传统的控制方法往往难以满足自动驾驶的要求。类似专家规则系统利用了浅层学习算法,浅层学习算法可以看作是从被标记的数据之间寻找规则的过程,当规则很难被抽象成公式或简单逻辑之时,浅层学习算法就难以达到预定的效果。深度学习算法对感知有非常强的能力,在图像识别、语音识别等领域已经取得了极大的突破,然而,深度学习算法并不能把这种感知转化为决策能力。
发明内容
本发明的目的在于提供一种汽车的自动驾驶方法及装置,旨在解决由于现有技术无法提供一种有效的自动驾驶动作决策方法,导致自动驾驶汽车在面临驾驶场景类别多样、路况复杂时难以做出及时、有效的驾驶动作的问题。
一方面,本发明提供了一种汽车的自动驾驶方法,所述方法包括下述步骤:
通过汽车上预设的传感器获取所述汽车当前位置的汽车状态;
根据所述汽车状态和预先建立的策略网络模型,获取所述汽车当前可用驾驶动作的回报值,所述策略网络模型通过预设的深度强化学习算法建立;
将所述回报值中的最大回报值对应的当前可用驾驶动作设置为所述汽车下一执行动作并执行。
另一方面,本发明提供了一种汽车的自动驾驶装置,所述装置包括:
状态获取单元,用于通过汽车上预设的传感器获取所述汽车当前位置的汽车状态;
回报值获取单元,用于根据所述汽车状态和预先建立的策略网络模型,获取所述汽车当前可用驾驶动作的回报值,所述策略网络模型通过预设的深度强化学习算法建立;以及
动作执行单元,用于将所述回报值中的最大回报值对应的当前可用驾驶动作设置为所述汽车下一执行动作并执行。
本发明通过汽车上预设的传感器获取汽车当前位置的汽车状态,根据该汽车状态和预先通过深度强化学习算法建立的策略网络模型,获取汽车当前可用驾驶动作的回报值,将回报值中的最大回报值对应的当前可用驾驶动作设置为汽车下一执行动作并执行,从而在面临驾驶场景类别多样、路况复杂时及时、有效地获取到较优的驾驶动作并执行,实现汽车的自动驾驶。
附图说明
图1是本发明实施例一提供的汽车的自动驾驶方法的实现流程图;
图2是本发明实施例一提供的汽车的自动驾驶方法的实现示意图;
图3是本发明实施例二提供的汽车的自动驾驶装置的结构示意图;以及
图4是本发明实施例三提供的汽车的自动驾驶装置的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
以下结合具体实施例对本发明的具体实现进行详细描述:
实施例一:
图1示出了本发明实施例一提供的汽车的自动驾驶方法的实现流程,为了便于说明,仅示出了与本发明实施例相关的部分,详述如下:
在步骤S101中,通过汽车上预设的传感器获取汽车当前位置的汽车状态。
本发明实施例适用于汽车、汽车上的自动驾驶平台或设备,汽车状态是指汽车行驶过程中的一种状态,可用汽车轮胎、方向盘、发动机等各部件的当前参数值表示,具体可从汽车上设置或安装的各类传感器(例如,雷达、超声、视觉传感器等)获取。作为示例地,状态可通过表示汽车离道路中线的距离、汽车前进方向与道路切向的夹角以及汽车在道路切向上的速度分量等参数进行表示。
在步骤S102中,根据汽车状态和预先建立的策略网络模型,获取汽车当前可用驾驶动作的回报值,策略网络模型通过预设的深度强化学习算法建立。
在本发明实施例中,预先建立一策略网络模型,该策略网络模型通过预设的深度强化学习算法建立,从而汽车在实际高度复杂、易变的道路环境下快速准确地进行决策。如图2所示,通过该策略网络模型可准确获得汽车当前可用驾驶动作的回报值,即每个驾驶动作的评价值或奖励,可以认为评价值或奖励越大,对应的驾驶动作越准确。
优选地,通过下述步骤建立该策略网络模型:
A、对设置的策略网络模型进行初始化,设定汽车驾驶动作的立即回报函数,并对立即回报函数的回报值进行初始化;
B、接收汽车当前训练状态的样本,根据当前训练状态以及立即回报函数计算汽车的动作集中每个驾驶动作的立即回报值,获取立即回报值中的最大立即回报值;
C、将所述汽车状态和通过预设方式选择的驾驶动作作为策略网络模型的输入值,将最大立即回报值和策略网络模型不同驾驶动作下的最大回报值的累计折算值之和作为输出值,对策略网络模型进行训练,并更新策略网络模型的权值;
D、根据当前训练状态和立即回报值对应的驾驶动作,获取汽车的下一状态,判断下一状态是否为终止训练状态,是则返回策略网络模型,否则将下一状态设置为当前训练状态的样本并传送给步骤B,从而进入策略网络模型的下一轮训练。
在本发明实施例中,策略网络模型具体为一系列函数,以在通过样本训练后得到较为精确的权值,从而在输入汽车状态和动作时,得到对应的回报值,而立即回报函数则反映了仅考虑当前状态时实施一驾驶动作所得到的回报。作为示例地,例如,立即回报函数可以为r=Δdis*cos(α*angle)*sgn(trackPos-threshold),其中,Δdis表示相邻状态跑过的有效距离,angle表示行驶方向与道路切线夹角,α表示权重缩放因子,sgn符号函数在汽车离道路中线的距离trackPos大于预设阈值threshold的时候,取值无穷小,意在表达车辆太靠近道路边界时的惩罚。
在本发明实施例中,在步骤C中选择驾驶动作时,可按随机选取或小概率随机选取任一驾驶动作作为选择的驾驶动作,否则将步骤B中最大回报值对应的驾驶动作作为选择的驾驶动作。另外,由于有些驾驶动作并不能用于当前训练状态,因此,在根据当前训练状态以及立即回报函数计算汽车的动作集中每个驾驶动作的立即回报值时,优选地,可先根据当前训练状态对汽车的动作集中的驾驶动作进行筛选,根据当前训练状态以及立即回报函数计算筛选后的每个驾驶动作的立即回报值,从而减少遍历动作集中动作的时间,提高策略网络模型的训练速度。
可选地,在对策略网络模型进行训练时,可通过后向传播算法对策略网络模型进行训练,在通过后向传播算法对策略网络模型进行训练时,将汽车状态和通过预设方式选择的驾驶动作作为策略网络模型的输入值,将该汽车状态下的最大立即回报值和策略网络模型不同驾驶动作下的最大回报值的累计折算值之和作为输出值,从而在训练时考虑驾驶中未来环境的不确定性,进一步提高策略网络模型训练时的真实性,提高策略网络模型中权值的准确度。
在步骤S103中,将回报值中的最大回报值对应的当前可用驾驶动作设置为汽车下一执行动作并执行。
在本发明实施例中,若通过汽车状态和训练好的策略网络模型获取到最大回报值,则说明该最大回报值对应的驾驶动作是当前汽车在当前位置汽车状态下的最佳选择,因此,将该最大回报值对应的当前可用驾驶动作设置为汽车下一执行动作并执行。
在本发明实施例中,通过汽车上预设的传感器获取汽车当前位置的汽车状态,根据该汽车状态和预先通过深度强化学习算法建立的策略网络模型,获取汽车当前可用驾驶动作的回报值,将回报值中的最大回报值对应的当前可用驾驶动作设置为汽车下一执行动作并执行,从而在面临驾驶场景类别多样、路况复杂时及时、有效地获取到较优的驾驶动作并执行,实现汽车的自动驾驶。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以存储于一计算机可读取存储介质中,所述的存储介质,如ROM/RAM、磁盘、光盘等。
实施例二:
图3示出了本发明实施例二提供的汽车的自动驾驶装置的结构,为了便于说明,仅示出了与本发明实施例相关的部分,其中包括:
状态获取单元31,用于通过汽车上预设的传感器获取汽车当前位置的汽车状态;
回报值获取单元32,用于根据汽车状态和预先建立的策略网络模型,获取汽车当前可用驾驶动作的回报值,其中,策略网络模型通过预设的深度强化学习算法建立;以及
动作执行单元33,用于将回报值中的最大回报值对应的当前可用驾驶动作设置为汽车下一执行动作并执行。
在本发明实施例中,自动驾驶装置的各单元可由相应的硬件或软件单元实现,各单元可以为独立的软、硬件单元,也可以集成为一个软、硬件单元,在此不用以限制本发明。各单元的具体实施方式可参考实施一的描述,在此不再赘述。
实施例三:
图4示出了本发明实施例三提供的汽车的自动驾驶装置的结构,为了便于说明,仅示出了与本发明实施例相关的部分,其中包括:
初始化单元41,用于对设置的策略网络模型进行初始化,设定汽车驾驶动作的立即回报函数,并对立即回报函数的回报值进行初始化;
最大值获取单元42,用于接收汽车当前训练状态的样本,根据当前训练状态以及立即回报函数计算汽车的动作集中每个驾驶动作的立即回报值,获取立即回报值中的最大立即回报值;
动作筛选单元43,用于随机选取任一驾驶动作作为选择的驾驶动作,否则将最大回报值对应的驾驶动作作为选择的驾驶动作;
权值更新单元44,用于将汽车状态和通过预设方式选择的驾驶动作作为策略网络模型的输入值,将最大立即回报值和策略网络模型不同驾驶动作下的最大回报值的累计折算值之和作为输出值,对策略网络模型进行训练,并更新策略网络模型的权值;
结果处理单元45,用于根据当前训练状态和立即回报值对应的驾驶动作,获取汽车的下一状态,判断下一状态是否为终止训练状态,是则返回策略网络模型,否则将下一状态设置为当前训练状态的样本并传送给最大值获取单元;
状态获取单元46,用于通过汽车上预设的传感器获取汽车当前位置的汽车状态;
回报值获取单元47,用于根据汽车状态和预先建立的策略网络模型,获取汽车当前可用驾驶动作的回报值,其中,策略网络模型通过预设的深度强化学习算法建立;以及
动作执行单元48,用于将回报值中的最大回报值对应的当前可用驾驶动作设置为汽车下一执行动作并执行。
在本发明实施例中,最大值获取单元42包括回报值计算单元421,用于根据当前训练状态对汽车的动作集中的驾驶动作进行筛选,根据当前训练状态以及立即回报函数计算筛选后的每个驾驶动作的立即回报值。权值更新单元44包括模型训练单元441,用于通过后向传播算法对策略网络模型进行训练。
在本发明实施例中,自动驾驶装置的各单元可由相应的硬件或软件单元实现,各单元可以为独立的软、硬件单元,也可以集成为一个软、硬件单元,在此不用以限制本发明。各单元的具体实施方式可参考实施一的描述,在此不再赘述。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种汽车的自动驾驶方法,其特征在于,所述方法包括下述步骤:
通过汽车上预设的传感器获取所述汽车当前位置的汽车状态;
根据所述汽车状态和预先建立的策略网络模型,获取所述汽车当前可用驾驶动作的回报值,所述策略网络模型通过预设的深度强化学习算法建立;
将所述回报值中的最大回报值对应的当前可用驾驶动作设置为所述汽车下一执行动作并执行。
2.如权利要求1所述的方法,其特征在于,根据所述汽车状态和预先建立的策略网络模型,获取所述汽车当前可用驾驶动作的回报值的步骤之前,所述方法还包括:
A、对设置的所述策略网络模型进行初始化,设定汽车驾驶动作的立即回报函数,并对所述立即回报函数的回报值进行初始化;
B、接收所述汽车当前训练状态的样本,根据所述当前训练状态以及所述立即回报函数计算汽车的动作集中每个驾驶动作的立即回报值,获取立即回报值中的最大立即回报值;
C、将所述汽车状态和通过预设方式选择的驾驶动作作为所述策略网络模型的输入值,将所述最大立即回报值和所述策略网络模型不同驾驶动作下的最大回报值的累计折算值之和作为输出值,对所述策略网络模型进行训练,并更新所述策略网络模型的权值;
D、根据所述当前训练状态和所述立即回报值对应的驾驶动作,获取所述汽车的下一状态,判断所述下一状态是否为终止训练状态,是则返回所述策略网络模型,否则将所述下一状态设置为当前训练状态的样本并传送给步骤B。
3.如权利要求2所述的方法,其特征在于,对所述策略网络模型进行训练的步骤,包括:
通过后向传播算法对所述策略网络模型进行训练。
4.如权利要求2所述的方法,其特征在于,所述选择的驾驶动作通过下述方式选择:
随机选取任一驾驶动作作为选择的驾驶动作,否则将所述最大回报值对应的驾驶动作作为选择的驾驶动作。
5.如权利要求2所述的方法,其特征在于,根据所述当前训练状态以及所述立即回报函数计算汽车的动作集中每个驾驶动作的立即回报值的步骤,包括:
根据所述当前训练状态对所述汽车的动作集中的驾驶动作进行筛选,根据所述当前训练状态以及所述立即回报函数计算筛选后的每个驾驶动作的立即回报值。
6.一种汽车的自动驾驶装置,其特征在于,所述装置包括:
状态获取单元,用于通过汽车上预设的传感器获取所述汽车当前位置的汽车状态;
回报值获取单元,用于根据所述汽车状态和预先建立的策略网络模型,获取所述汽车当前可用驾驶动作的回报值,所述策略网络模型通过预设的深度强化学习算法建立;以及
动作执行单元,用于将所述回报值中的最大回报值对应的当前可用驾驶动作设置为所述汽车下一执行动作并执行。
7.如权利要求6所述的装置,其特征在于,所述装置还包括:
初始化单元,用于对设置的所述策略网络模型进行初始化,设定汽车驾驶动作的立即回报函数,并对所述立即回报函数的回报值进行初始化;
最大值获取单元,用于接收所述汽车当前训练状态的样本,根据所述当前训练状态以及所述立即回报函数计算汽车的动作集中每个驾驶动作的立即回报值,获取立即回报值中的最大立即回报值;
权值更新单元,用于将所述汽车状态和通过预设方式选择的驾驶动作作为所述策略网络模型的输入值,将所述最大立即回报值和所述策略网络模型不同驾驶动作下的最大回报值的累计折算值之和作为输出值,对所述策略网络模型进行训练,并更新所述策略网络模型的权值;以及
结果处理单元,用于根据所述当前训练状态和所述立即回报值对应的驾驶动作,获取所述汽车的下一状态,判断所述下一状态是否为终止训练状态,是则返回所述策略网络模型,否则将所述下一状态设置为当前训练状态的样本并传送给所述最大值获取单元。
8.如权利要求7所述的装置,其特征在于,所述权值更新单元包括:
模型训练单元,用于通过后向传播算法对所述策略网络模型进行训练。
9.如权利要求7所述的装置,其特征在于,所述装置还包括:
动作筛选单元,用于随机选取任一驾驶动作作为选择的驾驶动作,否则将所述最大回报值对应的驾驶动作作为选择的驾驶动作。
10.如权利要求7所述的装置,其特征在于,所述最大值获取单元包括:
回报值计算单元,用于根据所述当前训练状态对所述汽车的动作集中的驾驶动作进行筛选,根据所述当前训练状态以及所述立即回报函数计算筛选后的每个驾驶动作的立即回报值。
CN201710156331.8A 2017-03-16 2017-03-16 一种汽车的自动驾驶方法及装置 Pending CN107168303A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710156331.8A CN107168303A (zh) 2017-03-16 2017-03-16 一种汽车的自动驾驶方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710156331.8A CN107168303A (zh) 2017-03-16 2017-03-16 一种汽车的自动驾驶方法及装置

Publications (1)

Publication Number Publication Date
CN107168303A true CN107168303A (zh) 2017-09-15

Family

ID=59848767

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710156331.8A Pending CN107168303A (zh) 2017-03-16 2017-03-16 一种汽车的自动驾驶方法及装置

Country Status (1)

Country Link
CN (1) CN107168303A (zh)

Cited By (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107832836A (zh) * 2017-11-27 2018-03-23 清华大学 无模型深度增强学习探索方法及装置
CN107862346A (zh) * 2017-12-01 2018-03-30 驭势科技(北京)有限公司 一种进行驾驶策略模型训练的方法与设备
CN108009587A (zh) * 2017-12-01 2018-05-08 驭势科技(北京)有限公司 一种基于强化学习和规则确定驾驶策略的方法与设备
CN108288094A (zh) * 2018-01-31 2018-07-17 清华大学 基于环境状态预测的深度强化学习方法及装置
CN108446727A (zh) * 2018-03-09 2018-08-24 上海安亭地平线智能交通技术有限公司 驾驶行为决策方法、系统和电子设备
CN108791302A (zh) * 2018-06-25 2018-11-13 大连大学 驾驶员行为建模系统
CN108791308A (zh) * 2018-06-25 2018-11-13 大连大学 基于驾驶环境构建驾驶策略的系统
CN108819948A (zh) * 2018-06-25 2018-11-16 大连大学 基于逆向强化学习的驾驶员行为建模方法
CN108891421A (zh) * 2018-06-25 2018-11-27 大连大学 一种构建驾驶策略的方法
CN108944940A (zh) * 2018-06-25 2018-12-07 大连大学 基于神经网络的驾驶员行为建模方法
CN109743666A (zh) * 2018-12-27 2019-05-10 北京普诺兴科技有限公司 基于增强学习的室内声源移动方法、介质、设备和装置
CN109752952A (zh) * 2017-11-08 2019-05-14 华为技术有限公司 一种获取多维随机分布及强化控制器的方法和装置
CN109901446A (zh) * 2017-12-08 2019-06-18 广州汽车集团股份有限公司 路口通行控制方法、装置及系统
WO2019141197A1 (en) * 2018-01-17 2019-07-25 Huawei Technologies Co., Ltd. Method of generating training data for training neural network, method of training neural network and using neural network for autonomous operations
CN110196587A (zh) * 2018-02-27 2019-09-03 中国科学院深圳先进技术研究院 车辆自动驾驶控制策略模型生成方法、装置、设备及介质
CN110244701A (zh) * 2018-03-08 2019-09-17 通用汽车环球科技运作有限责任公司 用于基于自动生成的课程序列的自主车辆的强化学习的方法和装置
CN110348278A (zh) * 2018-04-02 2019-10-18 索尼公司 用于自主驾驶的基于视觉的样本高效的强化学习框架
CN110568760A (zh) * 2019-10-08 2019-12-13 吉林大学 适用于换道及车道保持的参数化学习决策控制系统及方法
CN110673602A (zh) * 2019-10-24 2020-01-10 驭势科技(北京)有限公司 一种强化学习模型、车辆自动驾驶决策的方法和车载设备
CN110716562A (zh) * 2019-09-25 2020-01-21 南京航空航天大学 基于强化学习的无人驾驶汽车多车道行驶的决策方法
CN110850854A (zh) * 2018-07-27 2020-02-28 通用汽车环球科技运作有限责任公司 自动驾驶员代理和为自动驾驶员代理提供策略的策略服务器
CN110850861A (zh) * 2018-07-27 2020-02-28 通用汽车环球科技运作有限责任公司 基于注意的分层变道深度强化学习
CN110989577A (zh) * 2019-11-15 2020-04-10 深圳先进技术研究院 自动驾驶决策方法及车辆的自动驾驶装置
CN111208821A (zh) * 2020-02-17 2020-05-29 李华兰 汽车自动驾驶控制方法、装置、自动驾驶装置及系统
WO2020119363A1 (zh) * 2018-12-13 2020-06-18 华为技术有限公司 自动驾驶方法、训练方法及相关装置
CN111542836A (zh) * 2017-10-04 2020-08-14 华为技术有限公司 一种使用神经网络为对象选择动作的方法
CN111785027A (zh) * 2019-09-17 2020-10-16 上海森首科技股份有限公司 一种自动驾驶闭环信息系统
CN112249032A (zh) * 2020-10-29 2021-01-22 浪潮(北京)电子信息产业有限公司 一种自动驾驶决策方法、系统、设备及计算机存储介质
CN112327821A (zh) * 2020-07-08 2021-02-05 东莞市均谊视觉科技有限公司 一种基于深度强化学习的智能清洁机器人路径规划方法
CN113609102A (zh) * 2021-08-11 2021-11-05 佛山仙湖实验室 一种混合驱动矿用卡车的能量管理数据库的构建方法
CN114104005A (zh) * 2022-01-26 2022-03-01 苏州浪潮智能科技有限公司 自动驾驶设备的决策方法、装置、设备及可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140025613A1 (en) * 2012-07-20 2014-01-23 Filip Ponulak Apparatus and methods for reinforcement learning in large populations of artificial spiking neurons
CN105139072A (zh) * 2015-09-09 2015-12-09 东华大学 应用于非循迹智能小车避障系统的强化学习算法
CN106347359A (zh) * 2016-09-14 2017-01-25 北京百度网讯科技有限公司 用于操作自动驾驶车辆的方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140025613A1 (en) * 2012-07-20 2014-01-23 Filip Ponulak Apparatus and methods for reinforcement learning in large populations of artificial spiking neurons
CN105139072A (zh) * 2015-09-09 2015-12-09 东华大学 应用于非循迹智能小车避障系统的强化学习算法
CN106347359A (zh) * 2016-09-14 2017-01-25 北京百度网讯科技有限公司 用于操作自动驾驶车辆的方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
WEI XIA 等: "A Control Strategy of Autonomous Vehicles based on Deep Reinforcement Learning", 《2016 9TH INTERNATIONAL SYMPOSIUM ON COMPUTATIONAL INTELLIGENCE AND DESIGN》 *
韩伟 等: "《多智能体系统及其在电子商务中的应用》", 31 January 2008 *

Cited By (48)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111542836A (zh) * 2017-10-04 2020-08-14 华为技术有限公司 一种使用神经网络为对象选择动作的方法
CN109752952A (zh) * 2017-11-08 2019-05-14 华为技术有限公司 一种获取多维随机分布及强化控制器的方法和装置
CN109752952B (zh) * 2017-11-08 2022-05-13 华为技术有限公司 一种获取多维随机分布及强化控制器的方法和装置
CN107832836B (zh) * 2017-11-27 2020-04-21 清华大学 无模型深度增强学习探索方法及装置
CN107832836A (zh) * 2017-11-27 2018-03-23 清华大学 无模型深度增强学习探索方法及装置
CN108009587B (zh) * 2017-12-01 2021-04-16 驭势科技(北京)有限公司 一种基于强化学习和规则确定驾驶策略的方法与设备
CN107862346A (zh) * 2017-12-01 2018-03-30 驭势科技(北京)有限公司 一种进行驾驶策略模型训练的方法与设备
CN108009587A (zh) * 2017-12-01 2018-05-08 驭势科技(北京)有限公司 一种基于强化学习和规则确定驾驶策略的方法与设备
CN107862346B (zh) * 2017-12-01 2020-06-30 驭势科技(北京)有限公司 一种进行驾驶策略模型训练的方法与设备
CN109901446B (zh) * 2017-12-08 2020-07-07 广州汽车集团股份有限公司 路口通行控制方法、装置及系统
US11348455B2 (en) 2017-12-08 2022-05-31 Guangzhou Automobile Group Co., Ltd. Intersection traffic control method, apparatus and system
CN109901446A (zh) * 2017-12-08 2019-06-18 广州汽车集团股份有限公司 路口通行控制方法、装置及系统
WO2019141197A1 (en) * 2018-01-17 2019-07-25 Huawei Technologies Co., Ltd. Method of generating training data for training neural network, method of training neural network and using neural network for autonomous operations
CN108288094B (zh) * 2018-01-31 2021-06-29 清华大学 基于环境状态预测的深度强化学习方法及装置
CN108288094A (zh) * 2018-01-31 2018-07-17 清华大学 基于环境状态预测的深度强化学习方法及装置
CN110196587A (zh) * 2018-02-27 2019-09-03 中国科学院深圳先进技术研究院 车辆自动驾驶控制策略模型生成方法、装置、设备及介质
CN110244701A (zh) * 2018-03-08 2019-09-17 通用汽车环球科技运作有限责任公司 用于基于自动生成的课程序列的自主车辆的强化学习的方法和装置
CN108446727B (zh) * 2018-03-09 2021-09-21 上海安亭地平线智能交通技术有限公司 驾驶行为决策方法、系统和电子设备
CN108446727A (zh) * 2018-03-09 2018-08-24 上海安亭地平线智能交通技术有限公司 驾驶行为决策方法、系统和电子设备
CN110348278A (zh) * 2018-04-02 2019-10-18 索尼公司 用于自主驾驶的基于视觉的样本高效的强化学习框架
CN110348278B (zh) * 2018-04-02 2023-08-11 索尼公司 用于自主驾驶的基于视觉的样本高效的强化学习框架
CN108791302B (zh) * 2018-06-25 2020-05-19 大连大学 驾驶员行为建模系统
CN108819948A (zh) * 2018-06-25 2018-11-16 大连大学 基于逆向强化学习的驾驶员行为建模方法
CN108891421A (zh) * 2018-06-25 2018-11-27 大连大学 一种构建驾驶策略的方法
CN108944940A (zh) * 2018-06-25 2018-12-07 大连大学 基于神经网络的驾驶员行为建模方法
CN108791302A (zh) * 2018-06-25 2018-11-13 大连大学 驾驶员行为建模系统
CN108791308A (zh) * 2018-06-25 2018-11-13 大连大学 基于驾驶环境构建驾驶策略的系统
CN110850861B (zh) * 2018-07-27 2023-05-23 通用汽车环球科技运作有限责任公司 基于注意的分层变道深度强化学习
CN110850854A (zh) * 2018-07-27 2020-02-28 通用汽车环球科技运作有限责任公司 自动驾驶员代理和为自动驾驶员代理提供策略的策略服务器
CN110850861A (zh) * 2018-07-27 2020-02-28 通用汽车环球科技运作有限责任公司 基于注意的分层变道深度强化学习
WO2020119363A1 (zh) * 2018-12-13 2020-06-18 华为技术有限公司 自动驾驶方法、训练方法及相关装置
CN109743666A (zh) * 2018-12-27 2019-05-10 北京普诺兴科技有限公司 基于增强学习的室内声源移动方法、介质、设备和装置
CN111785027A (zh) * 2019-09-17 2020-10-16 上海森首科技股份有限公司 一种自动驾驶闭环信息系统
CN111785027B (zh) * 2019-09-17 2023-01-06 上海森首科技股份有限公司 一种自动驾驶闭环信息系统
CN110716562A (zh) * 2019-09-25 2020-01-21 南京航空航天大学 基于强化学习的无人驾驶汽车多车道行驶的决策方法
CN110568760A (zh) * 2019-10-08 2019-12-13 吉林大学 适用于换道及车道保持的参数化学习决策控制系统及方法
CN110673602A (zh) * 2019-10-24 2020-01-10 驭势科技(北京)有限公司 一种强化学习模型、车辆自动驾驶决策的方法和车载设备
CN110673602B (zh) * 2019-10-24 2022-11-25 驭势科技(北京)有限公司 一种强化学习模型、车辆自动驾驶决策的方法和车载设备
CN110989577A (zh) * 2019-11-15 2020-04-10 深圳先进技术研究院 自动驾驶决策方法及车辆的自动驾驶装置
CN111208821A (zh) * 2020-02-17 2020-05-29 李华兰 汽车自动驾驶控制方法、装置、自动驾驶装置及系统
CN112327821A (zh) * 2020-07-08 2021-02-05 东莞市均谊视觉科技有限公司 一种基于深度强化学习的智能清洁机器人路径规划方法
CN112249032B (zh) * 2020-10-29 2022-02-18 浪潮(北京)电子信息产业有限公司 一种自动驾驶决策方法、系统、设备及计算机存储介质
WO2022088798A1 (zh) * 2020-10-29 2022-05-05 浪潮(北京)电子信息产业有限公司 一种自动驾驶决策方法、系统、设备及计算机存储介质
CN112249032A (zh) * 2020-10-29 2021-01-22 浪潮(北京)电子信息产业有限公司 一种自动驾驶决策方法、系统、设备及计算机存储介质
CN113609102A (zh) * 2021-08-11 2021-11-05 佛山仙湖实验室 一种混合驱动矿用卡车的能量管理数据库的构建方法
CN113609102B (zh) * 2021-08-11 2024-03-19 佛山仙湖实验室 一种混合驱动矿用卡车的能量管理数据库的构建方法
CN114104005A (zh) * 2022-01-26 2022-03-01 苏州浪潮智能科技有限公司 自动驾驶设备的决策方法、装置、设备及可读存储介质
CN114104005B (zh) * 2022-01-26 2022-04-19 苏州浪潮智能科技有限公司 自动驾驶设备的决策方法、装置、设备及可读存储介质

Similar Documents

Publication Publication Date Title
CN107168303A (zh) 一种汽车的自动驾驶方法及装置
US10235881B2 (en) Autonomous operation capability configuration for a vehicle
CN111898211B (zh) 基于深度强化学习的智能车速度决策方法及其仿真方法
CN112703459B (zh) 对抗场景的迭代生成
WO2021077725A1 (zh) 一种基于驾驶意图的周围车辆运动状态预测系统及方法
Lefevre et al. A learning-based framework for velocity control in autonomous driving
CN108919795B (zh) 一种自动驾驶汽车换道决策方法及装置
CN109709956B (zh) 一种自动驾驶车辆速度控制多目标优化的跟驰算法
US11465650B2 (en) Model-free reinforcement learning
CN110843789B (zh) 一种基于时序卷积网络的车辆换道意图预测方法
US11934957B2 (en) Methods, systems, and apparatuses for user-understandable explainable learning models
CN110196587A (zh) 车辆自动驾驶控制策略模型生成方法、装置、设备及介质
CN115257819A (zh) 城市低速环境下的大型营运车辆安全驾驶决策方法
CN112201070A (zh) 基于深度学习的自动驾车高速公路瓶颈路段行为决策方法
Guo et al. Toward human-like behavior generation in urban environment based on Markov decision process with hybrid potential maps
Wei et al. A learning-based autonomous driver: emulate human driver's intelligence in low-speed car following
Rajendar et al. Recent advancements in autonomous emergency braking: A survey
CN116653957A (zh) 一种变速变道方法、装置、设备及存储介质
CN114475607B (zh) 自动驾驶车辆的拟人化换道方法、装置、车辆及存储介质
Schlenoff et al. PRIDE: A hierarchical, integrated prediction framework for autonomous on-road driving
CN113635900B (zh) 一种预测巡航过程中基于能量管理的换道决策控制方法
CN112835362B (zh) 一种自动变道规划方法及装置、电子设备和存储介质
CN116507544A (zh) 用于规划自动或部分自动驾驶的运输工具的未来轨迹的方法和设备
Teng et al. Car Following Model Based on Driving Risk Field for Vehicle Infrastructure Cooperation
US11958501B1 (en) Performance-based metrics for evaluating system quality

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170915

RJ01 Rejection of invention patent application after publication