CN109765820B - 一种用于自动驾驶控制策略的训练系统 - Google Patents
一种用于自动驾驶控制策略的训练系统 Download PDFInfo
- Publication number
- CN109765820B CN109765820B CN201910030302.6A CN201910030302A CN109765820B CN 109765820 B CN109765820 B CN 109765820B CN 201910030302 A CN201910030302 A CN 201910030302A CN 109765820 B CN109765820 B CN 109765820B
- Authority
- CN
- China
- Prior art keywords
- simulator
- control strategy
- strategy
- model
- driving
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B19/00—Programme-control systems
- G05B19/02—Programme-control systems electric
- G05B19/04—Programme control other than numerical control, i.e. in sequence controllers or logic controllers
- G05B19/042—Programme control other than numerical control, i.e. in sequence controllers or logic controllers using digital processors
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
- G05D1/02—Control of position or course in two dimensions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/12—Computing arrangements based on biological models using genetic models
- G06N3/126—Evolutionary algorithms, e.g. genetic algorithms or genetic programming
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
- G06N5/025—Extracting rules from data
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09B—EDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
- G09B19/00—Teaching not covered by other main groups of this subclass
- G09B19/16—Control of vehicles or other craft
- G09B19/167—Control of land vehicles
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09B—EDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
- G09B9/00—Simulators for teaching or training purposes
- G09B9/02—Simulators for teaching or training purposes for teaching control of vehicles or other craft
- G09B9/04—Simulators for teaching or training purposes for teaching control of vehicles or other craft for teaching control of land vehicles
- G09B9/05—Simulators for teaching or training purposes for teaching control of vehicles or other craft for teaching control of land vehicles the view from a vehicle being simulated
Abstract
本发明公开了一种用于自动驾驶控制策略的训练系统,系统以基于机器学习的模拟器构建、基于对抗学习的驾驶控制策略搜索、驾驶控制策略模型迁移三大模块为特点,解决以往自动驾驶领域无法获得安全合规的控制策略难题。
Description
技术领域
本发明涉及一种用于自动驾驶控制策略的训练系统,可用于无人车、机器人、无人机等无人设备的控制,属于自动驾驶技术领域。
背景技术
自动驾驶的目标是其从辅助驾驶员驾驶到最终替代驾驶员,实现安全、合规、便捷的个人自动交通系统。现有的自动驾驶系统中,驾驶控制策略多为基于人工规则的方案、或基于实时规划的方案。现有的方案不具备智能特性,在实现安全性驾驶方面存在严重缺陷,无法设计出能够覆盖所有场景、特别是极端场景的自动驾驶控制策略。
近期有部分自动驾驶方案引入机器学习,通过采集驾驶员驾驶数据,以监督学习方式训练模型,使模型输出与人类驾驶习惯相似。此类方法需要收集大量驾驶数据进行模型训练,一方面仍需引入大量人力的参与,而另一方面,即使收集了大量驾驶数据,但其中包含的极端场景数据非常稀少,仍无法完全覆盖各种驾驶场景,使得最终以监督学习方式训练得到的模型存在场景盲区,当在陌生场景下使用时,无法安全的完成驾驶任务。
强化学习是通过智能体与环境不断交互试错,提升智能体自身的决策水平,使智能体在环境中逐渐学得最优控制策略,自动完成控制任务。然而,强化学习的学习过程需要智能体与环境进行大量交互试错,在实际的自动驾驶场景中,则需要无人车在物理世界中大量的自由探索,显然,此种方式极具危险性,且代价高昂。
因此,在自动驾驶任务中,亟需一种新型的自动驾驶策略训练的技术方案来解决这一问题。
发明内容
发明目的:针对现有技术中存在的问题与不足,本发明提供一种用于生成安全自动驾驶控制策略的训练系统。
技术方案:一种用于自动驾驶控制策略的训练系统,包括模拟器构造、策略搜索、策略迁移三个模块;
模拟器构造,包含车辆动力系统、行驶道路静态因素的模拟,以及行人、非机动车、周边车辆动态因素的模拟;
策略搜索,在构造出的模拟器中,设置指标函数,指标函数的构成包含目的地是否达到的目标评判值、驾驶过程是否违反交通规则的合规评判值、驾驶过程是否出现碰撞的安全评判值、驾驶过程是否产生过大加速的舒适性评判值等,通过将各个评判值的加权求和,得到指标函数,然后使用机器学习方法搜索最优化指标函数的驾驶控制策略;
策略迁移,根据无人车实体采集的数据,对模拟器中搜索到的策略进行再次训练,以得到在无人车实体上使用的驾驶控制策略。
模拟器中动态因素的模拟为:
首先,通过拍摄道路视频;
其次,通过人工标注的方法,或对象检测算法,将道路视频中的动态因素检测出;
然后,对于每一个动态因素o,提取其每一时刻t的周边信息S(o,t)、位置信息L(o,t),并将周边信息S(o,t)与位置移动信息L(o,t)-L(o,t-1)配对,即S(o,t)的标记为L(o,t)-L(o,t-1),构建所有动态因素和所有时刻的标记数据集;
再次,使用监督学习方法,例如深度神经网络学习算法、决策树学习算法等,从标记数据集训练出预测模型H,H的输入为S(o,t),输出为L(o,t)-L(o,t-1)的预测值;
最后,在模拟器中,对每一个动态因素o提取周边信息S(o)和位置信息L(o),通过调用预测模型H(S(o))得到值v,L(o)+v即为该动态因素的下一位置。
该方案为每一个动态因素生成一个预测模型,该模型根据输入的状态预测下一位置的差,因此具备环境的响应能力,也不需模拟器与视频拍摄场景完全一致。策略搜索:
自动驾驶控制策略的目的是根据持续输入的感知信息,持续输出控制量,形成驾驶过程。
首先,根据系统使用者对驾驶策略的需求,例如在到达驾驶目的地的同时需保证安全、合规、舒适,设计指标函数。
其次,设计策略模型参数,例如使用多层前馈神经网络、或卷积神经网络、或残差网络作为控制策略的实现模型,通过训练来确定的控制策略参数为神经网络节点之间的连接权值。
第三,针对指标函数,使用演化算法或强化学习算法在策略模型的参数空间进行搜索,寻找最大化评估值的策略模型参数。搜索过程可通用的写为以下步骤:
1.k=0
2.通过生成随机的控制策略参数,得到初始控制策略πk;
3.在模拟器中运行控制策略πk,得到模拟器中无人车运行的轨迹,并分别评估出该轨迹的目标评判值、安全评判值、合规评判值、舒适评判值,将这些值相加,得到该次控制策略运行的指标结果;
4.根据3的结果,按照演化算法更新种群,或按照强化学习方法更新驾驶策略模型;
5.更新后,得到下一次执行的驾驶策略模型,并令k=k+1;
6.从第2步重复,直到用完循环次数。
策略迁移:
【方案例1】模型初始化迁移。以在模拟器中训练出的自动驾驶控制策略模型为起点,在无人车实体上运行控制策略模型,并用得到的数据更新模型。
【方案例2】模拟器转移修正迁移。
首先,在无人车实体上执行控制动作序列(a1,a2,a3,…,an),收集得到每一动作执行后的感知状态(s0,s1,s2,s3,…,sn)。
其次,在模拟器中,初始状态置为s0,并且执行相同的动作序列(a1,a2,a3,…,an),收集得到感知状态(s0,u1,u2,u3,…,un)。
然后,在模拟器中,引入转移修正函数g,g输入当前状态s以及控制策略π给出的动作a,输出替代动作a的修正动作a’,并在环境中实际执行动作a’,即a’=g(s,π(s))。
再次,用演化算法或强化学习方法训练g,其目标是让无人车实体数据与模拟器产生的数据之间尽可能相似,即最小化∑i(si–ui)2。
经过以上修正后,将在模拟器中训练得到的控制策略π直接用于无人车实体。
附图说明
图1是自动驾驶控制策略训练系统主要模块框图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
一种用于自动驾驶控制策略的训练系统,系统主要架构包括模拟器构造、策略搜索、策略迁移三个模块,并以此三个模块为技术特征,如图1所示。
模拟器模块的构造,包含车辆动力系统、行驶道路等静态因素的模拟,以及行人、非机动车、周边车辆等动态因素的模拟。
策略搜索模块,在构造出的模拟器中,设置指标函数,指标函数的构成包含目的地是否达到的目标评判值、驾驶过程是否违反交通规则的合规评判值、驾驶过程是否出现碰撞的安全评判值、驾驶过程是否产生过大加速的舒适性评判值等,通过将各个评判值的加权求和,得到指标函数,然后使用机器学习方法搜索最优化指标函数的驾驶控制策略。
策略迁移模块,根据无人车实体采集的数据,对模拟器中搜索到的策略进行再次训练,以得到在无人车实体上使用的驾驶控制策略。
模拟器中静态因素的构建,包括车辆的动力学模型、道路模型等,属于已成熟领域,因此模拟器构建的难点在于其中动态因素的构建,包括行人、非机动车、周边车辆的行为模型。为了对动态因素进行模拟,具体的实施方案描述如下。
【实施例1】
首先,通过交通摄像头、或高空摄像头、或无人机等装置,在多种不同的道路场景,拍摄路面车辆、行人、非机动车通行的道路视频;
其次,通过人工标注的方法,或对象检测算法,将道路视频中的动态因素检测出,构造每一个动态因素的位置序列;
然后,将动态因素的位置序列在模拟器中播放,即产生动态因素的活动轨迹。
【实施例2】
实施例1是在模拟器中重放拍摄的动态因素行动轨迹,这样的做法存在两个缺陷,第一,模拟器的道路场景必须与视频中拍摄的场景一致,第二,动态因素不具备环境响应能力,仅仅是历史重放。下面描述一种基于机器学习方法的改进方案。
首先,通过交通摄像头、高空摄像头、无人机等装置,拍摄道路视频;
其次,通过人工标注的方法,或对象检测算法,将道路视频中的动态因素检测出;
然后,对于每一个动态因素o,提取其每一时刻t的周边信息S(o,t)(周边信息包括该因素周围360度可见的静态因素和其他动态因素信息等)、位置信息L(o,t),并将周边信息S(o,t)与位置移动信息L(o,t)-L(o,t-1)配对,即S(o,t)的标记为L(o,t)-L(o,t-1),构建所有动态因素和所有时刻的标记数据集。
再次,使用监督学习方法,例如深度神经网络学习算法、决策树学习算法等,从标记数据集训练出预测模型H,H的输入为S(o,t),输出为L(o,t)-L(o,t-1)的预测值。
最后,在模拟器中,对每一个动态因素o提取周边信息S(o)和位置信息L(o),通过调用预测模型H(S(o))得到值v,L(o)+v即为该动态因素的下一位置。
该方案为每一个动态因素生成一个预测模型,该模型根据输入的状态预测下一位置的差,因此具备环境的响应能力,也不需模拟器与视频拍摄场景完全一致。
策略搜索:
自动驾驶控制策略的目的是根据持续输入的感知信息,持续输出控制量,形成驾驶过程。
首先,根据系统使用者对驾驶策略的需求,例如在到达驾驶目的地的同时需保证安全、合规、舒适,设计指标函数为目的地是否达到的目标评判值、驾驶过程是否违反交通规则的合规评判值、驾驶过程是否出现碰撞的安全评判值、驾驶过程是否产生过大加速的舒适性评判值的加权和。例如,驾驶过程在设定的时长内最终到达目的地则目标评判值为1,发生碰撞则安全评判值加-100,发生违规则合规评判值加-1,发生大幅加减速、较大角速度则舒适评判值加-0.01,最终全部相加,形成对每一条驾驶过程都可以进行打分的指标。
其次,设计控制策略模型参数,例如使用多层前馈神经网络、或卷积神经网络、或残差网络作为控制策略的实现模型,则需要进一步通过训练来确定的控制策略参数为神经网络节点之间的连接权值。
第三,针对指标函数,使用演化算法或强化学习算法在策略模型的参数空间进行搜索,寻找最大化评估值的策略模型参数。搜索过程可通用的写为以下步骤:
1.k=0
2.通过生成随机的控制策略参数,得到初始控制策略πk;
3.在模拟器中运行控制策略πk,得到模拟器中无人车运行的轨迹,并分别评估出该轨迹的目标评判值、安全评判值、合规评判值、舒适评判值,将这些值相加,得到该次控制策略运行的指标结果;
4.根据3的结果,按照演化算法更新种群,或按照强化学习方法更新驾驶策略模型;
5.更新后,得到下一次执行的驾驶策略模型,并令k=k+1;
6.从第2步重复,直到用完循环次数。
策略迁移:
【方案例1】模型初始化迁移。以在模拟器中训练出的自动驾驶控制策略模型为起点,在无人车实体上运行控制策略模型,并用得到的数据更新模型。
【方案例2】模拟器转移修正迁移。
首先,在无人车实体上执行控制动作序列(a1,a2,a3,…,an),收集得到每一动作执行后的感知状态(s0,s1,s2,s3,…,sn)。
其次,在模拟器中,初始状态置为s0,并且执行相同的动作序列(a1,a2,a3,…,an),收集得到感知状态(s0,u1,u2,u3,…,un)。
然后,构造函数g,用于修正模拟器的偏差。函数g输入当前状态s以及控制策略π给出的动作a=π(s),输出替代动作a的修正动作a’,并在环境中实际执行动作a’,即a’=g(s,a)。
再次,用演化算法或强化学习方法训练g,其目标是让无人车实体数据与模拟器产生的数据之间尽可能相似,即最小化∑i(si–ui)2。
经过以上修正后,将在模拟器中训练得到的控制策略π直接用于无人车实体。
Claims (5)
1.一种用于自动驾驶控制策略的训练系统,其特征在于:包括模拟器构造、策略搜索、策略迁移三个模块;
模拟器构造,包含车辆动力系统、行驶道路静态因素的模拟,以及行人、非机动车、周边车辆动态因素的模拟;
策略搜索,在构造出的模拟器中,设置驾驶的指标函数,使用机器学习方法搜索最优化指标函数的驾驶控制策略;
策略迁移,根据无人车实体采集的数据,对模拟器中搜索到的策略进行再次训练,以得到在无人车实体上使用的驾驶控制策略。
2.如权利要求1所述的用于自动驾驶控制策略的训练系统,其特征在于:模拟器中动态因素的模拟为:
首先,拍摄道路视频;
其次,将道路视频中的动态因素检测出;
然后,对于每一个动态因素o,提取其每一时刻t的周边信息S(o,t)、位置信息L(o,t),并将周边信息S(o,t)与位置移动信息L(o,t)-L(o,t-1)配对,即S(o,t)的标记为L(o,t)-L(o,t-1),构建所有动态因素和所有时刻的标记数据集;
再次,使用监督学习方法,从标记数据集训练出预测模型H,H的输入为S(o,t),输出为L(o,t)-L(o,t-1)的预测值;
最后,在模拟器中,对每一个动态因素o提取周边信息S(o)和位置信息L(o),通过调用预测模型H(S(o))得到值v,L(o)+v即为该动态因素的下一位置。
3.如权利要求1所述的用于自动驾驶控制策略的训练系统,其特征在于:策略搜索:自动驾驶控制策略的目的是根据持续输入的感知信息,持续输出控制量,形成驾驶过程;
首先,根据系统使用者对驾驶策略的需求,设计指标函数;
其次,设计策略模型参数,使用多层前馈神经网络、或卷积神经网络、或残差网络作为控制策略的实现模型,通过训练来确定的控制策略参数为神经网络节点之间的连接权值;
第三,针对指标函数,使用演化算法或强化学习算法在策略模型的参数空间进行搜索,寻找最大化评估值的策略模型参数。
4.如权利要求3所述的用于自动驾驶控制策略的训练系统,其特征在于:搜索过程包括以下步骤:
(1)k=0
(2)通过生成随机的控制策略参数,得到初始控制策略πk;
(3)在模拟器中运行控制策略πk,得到模拟器中无人车运行的轨迹,并分别评估出该轨迹的目标评判值、安全评判值、合规评判值、舒适评判值,将这些值相加,得到该次控制策略运行的指标结果;
(4)根据(3)的结果,按照演化算法更新种群,或按照强化学习方法更新驾驶策略模型;
(5)更新后,得到下一次执行的驾驶策略模型,并令k=k+1;
(6)从第(2)步重复,直到用完循环次数。
5.如权利要求1所述的用于自动驾驶控制策略的训练系统,其特征在于:策略迁移包括:
模型初始化迁移:以在模拟器中训练出的自动驾驶控制策略模型为起点,在无人车实体上运行控制策略模型,并用得到的数据更新模型;
模拟器转移修正迁移:
首先,在无人车实体上执行控制动作序列(a1,a2,a3,…,an),收集得到每一动作执行后的感知状态(s0,s1,s2,s3,…,sn);
其次,在模拟器中,初始状态置为s0,并且执行相同的动作序列(a1,a2,a3,…,an),收集得到感知状态(s0,u1,u2,u3,…,un);
然后,在模拟器中,引入转移修正函数g,g输入当前状态s以及控制策略π给出的动作a,输出替代动作a的修正动作a’,并在环境中实际执行动作a’,即a’=g(s,π(s));
再次,用演化算法或强化学习方法训练g,其目标是让无人车实体数据与模拟器产生的数据之间尽可能相似,即最小化∑i(si–ui)2;
经过以上模拟器转移修正迁移后,将在模拟器中训练得到的控制策略π直接用于无人车实体。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910030302.6A CN109765820B (zh) | 2019-01-14 | 2019-01-14 | 一种用于自动驾驶控制策略的训练系统 |
PCT/CN2019/095711 WO2020147276A1 (zh) | 2019-01-14 | 2019-07-12 | 一种用于自动驾驶控制策略的训练系统 |
US16/968,608 US11062617B2 (en) | 2019-01-14 | 2019-07-12 | Training system for autonomous driving control policy |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910030302.6A CN109765820B (zh) | 2019-01-14 | 2019-01-14 | 一种用于自动驾驶控制策略的训练系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109765820A CN109765820A (zh) | 2019-05-17 |
CN109765820B true CN109765820B (zh) | 2019-08-09 |
Family
ID=66453751
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910030302.6A Active CN109765820B (zh) | 2019-01-14 | 2019-01-14 | 一种用于自动驾驶控制策略的训练系统 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11062617B2 (zh) |
CN (1) | CN109765820B (zh) |
WO (1) | WO2020147276A1 (zh) |
Families Citing this family (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109765820B (zh) | 2019-01-14 | 2019-08-09 | 南栖仙策(南京)科技有限公司 | 一种用于自动驾驶控制策略的训练系统 |
CN110322017A (zh) * | 2019-08-13 | 2019-10-11 | 吉林大学 | 基于深度强化学习的自动驾驶智能车轨迹跟踪控制策略 |
CN111222630B (zh) * | 2020-01-17 | 2023-07-25 | 北京工业大学 | 一种基于深度强化学习的自主驾驶规则学习方法 |
CN111258314B (zh) * | 2020-01-20 | 2022-07-15 | 中国科学院深圳先进技术研究院 | 一种基于协同演化的自动驾驶车辆决策涌现方法 |
CN111310919B (zh) * | 2020-02-08 | 2020-10-16 | 南栖仙策(南京)科技有限公司 | 基于场景切分和局部路径规划的驾驶控制策略训练方法 |
CN111324358B (zh) * | 2020-02-14 | 2020-10-16 | 南栖仙策(南京)科技有限公司 | 一种用于信息系统自动运维策略的训练方法 |
CN111339675B (zh) * | 2020-03-10 | 2020-12-01 | 南栖仙策(南京)科技有限公司 | 基于机器学习构建模拟环境的智能营销策略的训练方法 |
CN112700642B (zh) * | 2020-12-19 | 2022-09-23 | 北京工业大学 | 一种利用智能网联车辆提高交通通行效率的方法 |
CN112651446B (zh) * | 2020-12-29 | 2023-04-14 | 杭州趣链科技有限公司 | 一种基于联盟链的无人驾驶汽车训练方法 |
CN112906126B (zh) * | 2021-01-15 | 2023-04-07 | 北京航空航天大学 | 基于深度强化学习的车辆硬件在环仿真训练系统及方法 |
CN112395777B (zh) * | 2021-01-21 | 2021-04-16 | 南栖仙策(南京)科技有限公司 | 基于汽车尾气排放模拟环境的发动机标定参数寻优方法 |
CN113110592B (zh) * | 2021-04-23 | 2022-09-23 | 南京大学 | 一种无人机避障与路径规划方法 |
CN113276883B (zh) * | 2021-04-28 | 2023-04-21 | 南京大学 | 基于动态生成环境的无人车行驶策略规划方法及实现装置 |
CN113050433B (zh) * | 2021-05-31 | 2021-09-14 | 中国科学院自动化研究所 | 机器人控制策略迁移方法、装置及系统 |
DE112021007327T5 (de) * | 2021-05-31 | 2024-02-22 | Robert Bosch Gesellschaft mit beschränkter Haftung | Verfahren und vorrichtung zum trainieren eines neuronalen netzwerks zum imitieren des verhaltens eines demonstrators |
CN113741420B (zh) * | 2021-07-28 | 2023-12-19 | 浙江工业大学 | 一种由数据驱动的采样搜索方法和系统 |
CN113885491A (zh) * | 2021-08-29 | 2022-01-04 | 北京工业大学 | 基于联邦深度强化学习的无人驾驶决策与控制方法 |
CN113848913B (zh) * | 2021-09-28 | 2023-01-06 | 北京三快在线科技有限公司 | 一种无人驾驶设备的控制方法及控制装置 |
CN114179835B (zh) * | 2021-12-30 | 2024-01-05 | 清华大学苏州汽车研究院(吴江) | 基于真实场景下强化学习的自动驾驶车辆决策训练方法 |
CN114384901B (zh) * | 2022-01-12 | 2022-09-06 | 浙江中智达科技有限公司 | 一种面向动态交通环境的强化学习辅助驾驶决策方法 |
CN114117829B (zh) * | 2022-01-24 | 2022-04-22 | 清华大学 | 极限工况下人-车-路闭环系统动力学建模方法及系统 |
CN114104005B (zh) * | 2022-01-26 | 2022-04-19 | 苏州浪潮智能科技有限公司 | 自动驾驶设备的决策方法、装置、设备及可读存储介质 |
CN114580302A (zh) * | 2022-03-16 | 2022-06-03 | 重庆大学 | 基于最大熵强化学习的自动驾驶汽车决策规划方法 |
CN115512554B (zh) * | 2022-09-02 | 2023-07-28 | 北京百度网讯科技有限公司 | 参数模型训练及交通信号控制方法、装置、设备和介质 |
Family Cites Families (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103605285A (zh) * | 2013-11-21 | 2014-02-26 | 南京理工大学 | 汽车驾驶机器人系统的模糊神经网络控制方法 |
CN104049640B (zh) * | 2014-06-27 | 2016-06-15 | 金陵科技学院 | 基于神经网络观测器的无人飞行器姿态鲁棒容错控制方法 |
CN104199437A (zh) * | 2014-08-15 | 2014-12-10 | 上海交通大学 | 基于区域极点指标的分数阶PIλDμ控制器的参数优化方法 |
CN105488528B (zh) * | 2015-11-26 | 2019-06-07 | 北京工业大学 | 基于改进自适应遗传算法的神经网络图像分类方法 |
US9792575B2 (en) * | 2016-03-11 | 2017-10-17 | Route4Me, Inc. | Complex dynamic route sequencing for multi-vehicle fleets using traffic and real-world constraints |
CN109416873B (zh) * | 2016-06-24 | 2022-02-15 | 瑞士再保险有限公司 | 具有自动化风险控制系统的自主或部分自主机动车辆及其相应方法 |
JP6663822B2 (ja) * | 2016-08-08 | 2020-03-13 | 日立オートモティブシステムズ株式会社 | 自動運転装置 |
JP7081835B2 (ja) * | 2016-08-09 | 2022-06-07 | コントラスト, インコーポレイテッド | 車両制御のためのリアルタイムhdrビデオ |
GB201616097D0 (en) * | 2016-09-21 | 2016-11-02 | Univ Oxford Innovation Ltd | Segmentation of path proposals |
US10012993B1 (en) * | 2016-12-09 | 2018-07-03 | Zendrive, Inc. | Method and system for risk modeling in autonomous vehicles |
US10902347B2 (en) * | 2017-04-11 | 2021-01-26 | International Business Machines Corporation | Rule creation using MDP and inverse reinforcement learning |
US10755428B2 (en) * | 2017-04-17 | 2020-08-25 | The United States Of America, As Represented By The Secretary Of The Navy | Apparatuses and methods for machine vision system including creation of a point cloud model and/or three dimensional model |
CN107609633B (zh) | 2017-05-03 | 2020-08-14 | 同济大学 | 车联网复杂网络中基于深度学习的车辆行驶影响因素的位置预测模型构造方法 |
CN107506830A (zh) * | 2017-06-20 | 2017-12-22 | 同济大学 | 面向智能汽车规划决策模块的人工智能训练平台 |
US20180373997A1 (en) * | 2017-06-21 | 2018-12-27 | International Business Machines Corporation | Automatically state adjustment in reinforcement learning |
US20190146508A1 (en) * | 2017-11-14 | 2019-05-16 | Uber Technologies, Inc. | Dynamic vehicle routing using annotated maps and profiles |
US20190163176A1 (en) * | 2017-11-30 | 2019-05-30 | drive.ai Inc. | Method for transferring control of an autonomous vehicle to a remote operator |
CN107862346B (zh) | 2017-12-01 | 2020-06-30 | 驭势科技(北京)有限公司 | 一种进行驾驶策略模型训练的方法与设备 |
WO2019136375A1 (en) * | 2018-01-07 | 2019-07-11 | Nvidia Corporation | Guiding vehicles through vehicle maneuvers using machine learning models |
DE112019000122T5 (de) * | 2018-02-27 | 2020-06-25 | Nvidia Corporation | Echtzeiterfassung von spuren und begrenzungen durch autonome fahrzeuge |
CN108447076B (zh) | 2018-03-16 | 2021-04-06 | 清华大学 | 基于深度增强学习的多目标跟踪方法 |
CN109765820B (zh) | 2019-01-14 | 2019-08-09 | 南栖仙策(南京)科技有限公司 | 一种用于自动驾驶控制策略的训练系统 |
-
2019
- 2019-01-14 CN CN201910030302.6A patent/CN109765820B/zh active Active
- 2019-07-12 US US16/968,608 patent/US11062617B2/en active Active
- 2019-07-12 WO PCT/CN2019/095711 patent/WO2020147276A1/zh active Application Filing
Also Published As
Publication number | Publication date |
---|---|
WO2020147276A1 (zh) | 2020-07-23 |
US11062617B2 (en) | 2021-07-13 |
CN109765820A (zh) | 2019-05-17 |
US20200372822A1 (en) | 2020-11-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109765820B (zh) | 一种用于自动驾驶控制策略的训练系统 | |
CN110969848B (zh) | 一种对向双车道下基于强化学习的自动驾驶超车决策方法 | |
Liang et al. | A deep reinforcement learning network for traffic light cycle control | |
CN109215355A (zh) | 一种基于深度强化学习的单点交叉口信号配时优化方法 | |
CN113010967B (zh) | 一种基于混合交通流模型的智能汽车在环仿真测试方法 | |
CN109726804B (zh) | 一种基于行车预测场和bp神经网络的智能车辆驾驶行为拟人化决策方法 | |
CN107506830A (zh) | 面向智能汽车规划决策模块的人工智能训练平台 | |
CN113298260B (zh) | 一种基于深度强化学习的对抗仿真推演方法 | |
CN113223305B (zh) | 基于强化学习的多路口交通灯控制方法、系统及存储介质 | |
CN113044064B (zh) | 基于元强化学习的车辆自适应的自动驾驶决策方法及系统 | |
CN109492763A (zh) | 一种基于强化学习网络训练的自动泊车方法 | |
CN108791302B (zh) | 驾驶员行为建模系统 | |
Moriarty et al. | Learning cooperative lane selection strategies for highways | |
CN112550314B (zh) | 适用于无人驾驶的嵌入优化式控制方法及其驾驶控制模块和自动驾驶控制系统 | |
Zhang et al. | A systematic solution of human driving behavior modeling and simulation for automated vehicle studies | |
CN112183288B (zh) | 一种基于模型的多智能体强化学习方法 | |
CN110320916A (zh) | 考虑乘员感受的自动驾驶汽车轨迹规划方法及系统 | |
CN114973650A (zh) | 车辆匝道入口合流控制方法、车辆、电子设备及存储介质 | |
CN115762128B (zh) | 一种基于自注意力机制的深度强化学习交通信号控制方法 | |
CN110021168B (zh) | 一种车联网下实现实时智能交通管理的分级决策方法 | |
CN116620327A (zh) | 基于PPO和Lattice实现自动驾驶的高速场景的变道决策方法 | |
CN116758768A (zh) | 一种全十字路口红绿灯动态调控方法 | |
CN115871742A (zh) | 一种多场景下人机混驾智能列车的控制方法 | |
Luo et al. | Researches on intelligent traffic signal control based on deep reinforcement learning | |
US20240086776A1 (en) | Closed-loop online self-learning framework applied to autonomous vehicle |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |