CN113239986A - 车辆轨迹评价网络模型的训练方法、装置和存储介质 - Google Patents
车辆轨迹评价网络模型的训练方法、装置和存储介质 Download PDFInfo
- Publication number
- CN113239986A CN113239986A CN202110450469.5A CN202110450469A CN113239986A CN 113239986 A CN113239986 A CN 113239986A CN 202110450469 A CN202110450469 A CN 202110450469A CN 113239986 A CN113239986 A CN 113239986A
- Authority
- CN
- China
- Prior art keywords
- network model
- planning
- sampling
- vehicle
- evaluation network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
- G06Q10/047—Optimisation of routes or paths, e.g. travelling salesman problem
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Abstract
本发明涉及一种车辆轨迹评价网络模型的训练方法、装置和存储介质,训练方法包括:获取实车数据;以实车数据为基础,通过路径规划算法和采样算法生成采样规划轨迹;获取人类驾驶员驾驶车辆形成的专家规划轨迹;将采样规划轨迹和专家规划轨迹转换为多维时间序列,得到样本数据集;以样本数据集为基础,训练得到评价网络模型。与现有技术相比,本发明基于采集的实车数据得到采样规划路径,结合人类驾驶员驾驶车辆形成的专家规划路径得到样本数据集,基于样本数据集训练得到评价网络模型,越符合人类驾驶经验的规划轨迹在评价网络模型中的代价越低,这样能够更加客观的对驾驶时的候选轨迹进行评价,得到更贴合人类实际驾驶的候选轨迹。
Description
技术领域
本发明涉及智能驾驶领域,尤其是涉及一种车辆轨迹评价网络模型的训练方法、装置和存储介质。
背景技术
随着社会的发展,汽车保有量持续增加,自动驾驶也越来越受到各界的关注,在学界和产业界大力投入下获得飞速发展。决策规划作为自动驾驶的重要模块,负责提供自动驾驶车辆在未来一段时间内(即规划周期内)的规划轨迹。自动驾驶车辆的决策规划存在以下难点:需要覆盖多场景,同时遵守交通规则以及保证安全性和舒适性。各国学者引入了许多先进方法来解决自动驾驶车辆的决策规划问题,例如传统轨迹规划方法,基于模仿学习的轨迹规划方法,基于强化学习的方法,基于视觉特征的模型等,但是,现有的车辆轨迹规划方法都存在着不足之处。
传统轨迹规划方法通过优化预先设定的代价函数来获得规划轨迹,对驾驶过程中的每一种场景都要进行大量的定制化的建模与分析,严重阻碍了轨迹规划模块在多种场景下的部署,增加了轨迹规划模块的维护问题。基于模仿学习的方法将专家轨迹和采样的轨迹经过预设的计算形式得到特征向量,使用模仿学习获得评价特征向量的评价网络,通过评价网络获得最优规划轨迹作为推荐轨迹,尽管融入了专家的先验知识,但是在轨迹评价方式上仍然选择手动设计的评价函数,这些评价函数严重依赖根据经验设置的超参数,鲁棒性很差,在泛化性能上严重依赖于数据集的多样性。基于强化学习的方法难以找到一个最优的奖励函数,并且受限于安全性的限制,一般在仿真环境内完成训练过程,很少使用真实环境数据训练,造成模型偏离真实数据分布,在真实环境中容易做出错误的决策。基于视觉特征的模型容易受数据分布迁移的影响,比如在虚拟环境中训练的模型,由于Domaingap(域差异),在真实环境下表现很差。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种车辆轨迹评价网络模型的训练方法、装置和存储介质,以采集的实车数据为基础,得到采样规划轨迹和人类驾驶员的专家规划轨迹作为样本数据集,通过网络结构搜索的方式确定评价网络模型的结构,训练评价网络模型,越符合人类驾驶经验的规划轨迹在评价网络模型中的代价越低,且采样规划轨迹与专家规划轨迹的代价的间隔最大,这样得到的评价网络模型可以找到最符合人类驾驶经验的规划轨迹。
本发明的目的可以通过以下技术方案来实现:
一种车辆轨迹评价网络模型的训练方法,包括以下步骤:
获取样本数据集,所述样本数据集是基于多条采样规划轨迹和多条人类驾驶员驾驶车辆形成的专家规划轨迹得到的;
初始化生成评价网络模型;
以样本数据集为基础,训练所述评价网络模型,使得专家规划轨迹在评价网络模型中的代价最低,且专家规划轨迹与采样规划轨迹在评价网络模型中的代价的间隔最大。
进一步的,获取样本数据集的过程如下:获取包含多组实车数据的原始数据集,以原始数据集为基础,通过路径规划算法和采样算法生成多条采样规划轨迹;获取多条人类驾驶员驾驶车辆形成的专家规划轨迹;将采样规划轨迹和专家规划轨迹转换为多维时间序列,得到样本数据集。
更进一步的,所述实车数据包括道路信息、自车状态信息和障碍物信息。
更进一步的,所述样本数据集中还包括扰动专家规划轨迹转换的多维时间序列,扰动专家规划轨迹的获取过程为:在专家规划轨迹的横向和纵向上改变速度和偏差,得到多条初步规划轨迹,将通过碰撞检测的初步规划轨迹作为扰动专家规划轨迹。
更进一步的,所述样本数据集中还包括障碍专家轨迹转换的多维时间序列,障碍专家规划轨迹的获取过程为:获取实车数据中的障碍物信息,提取障碍物中机动车的行驶轨迹,去除行驶异常的机动车的行驶轨迹,包括停车时间过长的行驶轨迹、存在超速的行驶轨迹和存在碰撞的行驶轨迹,得到障碍专家规划轨迹。
更进一步的,所述多维时间序列为状态量在规划周期内的多个时刻的取值,所述状态量包括道路信息状态量、自车状态信息状态量和障碍物信息状态量。
更进一步的,所述多维时间序列中还包括规划轨迹的曲率。
更进一步的,所述道路信息状态量包括道路的限速;所述自车状态信息包括速度和加速度;所述障碍物信息状态量包括车辆周边各个区域内距离车辆最近的障碍物信息,所述障碍物信息包括障碍物类型、障碍物的坐标和障碍物的速度。
更进一步的,车辆的周边区域包括左前方、正前方、右前方、正右方、右后方、正后方、左后方和正左方。
更进一步的,使用路径规划算法获得车辆的路径和路径曲线方程;使用采样算法对路径进行采样,得到采样规划轨迹,采样过程具体为:
获取规划周期T、时间采样间隔δ、单位速度增量μ、最大采样速度υ、最大采样加速度α、最大采样负加速度-α和车辆在初始时刻t0的初始速度η;
根据规划周期T和时间采样间隔δ获得采样时刻t1,t2,t3……T;根据最大采样速度υ和单位速度增量μ获得所有可能的采样速度μ,2μ,3μ……υ;
依次确定各个采样时刻t1,t2,t3……T的速度,其中,相邻的采样时刻的速度差值不超过最大采样加速度α和最大采样负加速度-α;
根据每个采样时刻的速度计算车辆的纵向位置坐标,得到表示时间和纵向位置坐标的ST轨迹{(s0,t0),(s1,t1),(s2,t2),……(sT,T)},将ST轨迹中每个采样时刻的纵向位置坐标代入路径曲线方程,得到采样规划轨迹。
进一步的,以网络结构搜索的方式确定评价网络模型的结构,初始化生成评价网络模型,具体为:
选定候选网络结构1~n;初始化候选网络结构的参数W1~Wn和权重a1~an;获取训练集和验证集;
将训练集作为输入,输入经过候选网络结构得到S1~Sn的输出,将输出乘以a1~an的softmax形式A1~An,再将所有的乘积求和,得到最终的输出;
使用验证集来更新候选网络的权重a1~an,再使用训练集更新候选网络的参数,如果候选网络没有收敛,则重复此步骤直至候选网络收敛;
对A1~An进行排序,选择其中最大的k个权重所对应的候选网络结构作为评价网络模型的结构。
一种车辆轨迹评价网络模型的训练装置,包括:
样本数据集获取模块,用于获取基于采样规划轨迹和专家规划轨迹的样本数据集;
评价网络模型生成模块,用于确定评价网络模型的结构,初始化生成评价网络模型;
评价网络模型训练模块,用于根据样本数据集对评价网络模型进行训练,训练完成的评价网络模型中,专家规划轨迹的代价最低,且专家规划轨迹与采样规划轨迹的代价的间隔最大。
一种存储介质,其上存储有计算机程序,所述计算机程序被执行时实现评价网络模型训练方法的步骤。
与现有技术相比,本发明具有以下有益效果:
(1)以采集的实车数据为基础,得到采样规划轨迹和人类驾驶员的专家规划轨迹作为样本数据集,通过网络结构搜索的方式确定评价网络模型的结构,训练评价网络模型,越符合人类驾驶经验的规划轨迹在评价网络模型中的代价越低,且采样规划轨迹与专家规划轨迹的代价的间隔最大,这样得到的评价网络模型可以找到最符合人类驾驶经验的规划轨迹。
(2)与传统的轨迹规划方法相比,本申请是基于采集的实车数据实现的,不需要定制化建模或仿真,实现实车数据的持续优化和迭代,能更加快速的适应新增的驾驶场景。
(3)与基于模仿学习的轨迹规划方法相比,评价函数的设计不再依赖手动设计,以专家规划轨迹的代价最低,且采样规划轨迹与专家规划轨迹的代价的间隔最大为目标,得到的评价网络模型可以评价更加多样的轨迹。
(4)在样本数据集中增加了扰动专家规划轨迹和障碍专家规划轨迹,扩充了样本数据集的多样性和规模,增强了评价网络模型的泛化性能。
附图说明
图1为本发明的流程图;
图2为路径规划算法中笛卡尔坐标系到Frenet坐标系的转换示意图;
图3为实施例中ST轨迹的示意图;
图4为实施例中生成扰动专家规划轨迹的示意图;
图5为实施例中车辆周边区域划分示意图;
图6为实施例中网络结构搜索示意图;
图7为实施例中候选网络结构示意图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
实施例1:
一种车辆轨迹评价网络模型的训练方法,包括以下步骤:
获取样本数据集,样本数据集是基于多条采样规划轨迹和多条人类驾驶员驾驶车辆形成的专家规划轨迹得到的;
初始化生成评价网络模型;
以样本数据集为基础,训练评价网络模型,使得专家规划轨迹在评价网络模型中的代价最低,且专家规划轨迹与采样规划轨迹在评价网络模型中的代价的间隔最大。
其中,获取样本数据集的过程如下:获取包含多组实车数据的原始数据集,以原始数据集为基础,通过路径规划算法和采样算法生成多条采样规划轨迹;获取多条人类驾驶员驾驶车辆形成的专家规划轨迹;将采样规划轨迹和专家规划轨迹转换为多维时间序列,得到样本数据集;实车数据包括道路信息、自车状态信息和障碍物信息。
本申请使用EM planner的路径规划方法获得在Frenet坐标系下的路径,笛卡尔坐标系转换到Frenet坐标系后如图2所示,使用五次多项式拟合路径,获得路径曲线方程式,路径曲线方程式如下所示:
l=c5·s5+c4·s4+c3·s3+c2·s2+c1·s1+c0
其中,l(即lateral)为横向位置坐标,s(即station)为纵向位置坐标,c5,c4,c3,c2,c1,c0为多项式系数。
路径为包含车辆位置信息的一系列路径点,即只包含车辆在规划周期内的位置信息,不包括各个位置对应的时间点。获得路径后,在时间维度上对车辆速度进行采样,得到多条包含位置和相对时刻的采样规划轨迹。
采样算法具体为:
获取路径和路径曲线方程;获取规划周期T、时间采样间隔δ、单位速度增量μ、最大采样速度υ、最大采样加速度α、最大采样负加速度-α和车辆在初始时刻t0的初始速度η;
本实施例中,规划周期T为8s,时间采样间隔为1s,单位速度增量μ为0.5m/s,最大采样加速度α和最大采样负加速度-α分别为2.5m/s2、-2.5m/s2,最大采样速度υ与道路限速相等,比如在主干路,车速不高于60km/h,在支路,车速不高于40km/h。
根据规划周期T和时间采样间隔δ获得采样时刻t1,t2,t3……T;根据最大采样速度υ和单位速度增量μ获得所有可能的采样速度μ,2μ,3μ……υ;
依次确定各个采样时刻t1,t2,t3……T的速度,其中,相邻采样时刻的速度的差值不超过最大采样加速度α和最大采样负加速度-α;
根据每个采样时刻的速度计算车辆的纵向位置坐标,得到表示时间和纵向位置坐标的ST轨迹{(s0,t0),(s1,t1),(s2,t2),……(sT,T)},将ST轨迹中每个采样时刻的纵向位置坐标代入路径曲线方程,得到ST轨迹对应的采样规划轨迹。
以t1时刻为例,如图3所示,遍历所有的采样速度,若采用μ作为t1时刻的速度,则ST轨迹的第一个点的纵向位置在s1,若采用3μ作为t1时刻的速度,则ST轨迹的第一个点的纵向位置在s2。确定t2时刻的速度时,只能考虑与t1时刻的速度的差值不超过最大采样加速度α和最大采样负加速度-α的采样速度。这样,可以得到多条ST轨迹,如图3中的ST轨迹1、ST轨迹2、ST轨迹3和ST轨迹4。
得到ST轨迹后,将每个时刻的纵向位置坐标带入路径曲线方程获得对应纵向位置的lateral坐标,即横向位置坐标,由此获得每条ST轨迹对应的SLT轨迹,也称为采样规划轨迹。
为了扩充样本数据集的多样性和规模,有效利用采集的实车数据,增强评价网络模型的泛化性能,在样本数据集中增加扰动专家规划轨迹和障碍专家规划轨迹。
扰动专家规划轨迹的获取过程为:在专家规划轨迹的横向和纵向上改变速度和偏差,得到多条初步规划轨迹,将通过碰撞检测的初步规划轨迹作为扰动专家规划轨迹。本实施例中,如图4所示,黑色实线为专家规划轨迹,在专家规划轨迹的t3,t4,t5时刻对自车在横向上减去的偏差,如图4中浅灰色轨迹所示,其他时刻与专家规划轨迹保持一致,由此获得一条在横向上与专家规划轨迹偏差较小的新样本;在纵向上对专家规划轨迹加入一定扰动,例如增加纵向速度,使自车提前到达最终规划位置,如图4中深灰色轨迹所示,其他时刻的轨迹与专家规划轨迹保持一致,由此获得一条在纵向上与专专家规划轨迹偏差较小的新样本;上述生成的新样本需要进行碰撞检测,与障碍车辆发生碰撞的轨迹(如图4中虚线所示的轨迹)不会加入数据集。
以车辆行驶过程中采集到的障碍车辆的行驶轨迹作为障碍专家规划轨迹。在获取障碍物的行驶轨迹后,去除其中行人和非机动车的运动轨迹,只保留机动车的行驶轨迹;再去除不合理的行驶轨迹,例如停止时间过长,存在超速,碰撞等异常情况,剩下的不存在异常情况的机动车轨迹可以作为碰撞专家规划轨迹。
多维时间序列为状态量在规划周期内的多个时刻的取值,状态量包括道路信息状态量、自车状态信息状态量和障碍物信息状态量;道路信息状态量包括道路的限速;自车状态信息包括速度和加速度;障碍物状态信息状态量包括车辆周边每个区域内距离车辆最佳的障碍物的信息,障碍物信息包括障碍物类型、障碍物的坐标和障碍物的速度。
在实际驾驶过程中,需要考虑以车辆为中心,所有方向上的障碍物,如图5所示,本申请将车辆的周边区域划分为左前方、正前方、右前方、正右方、右后方、正后方、左后方和正左方。由于只有距离车辆最近的障碍物对车辆的决策产生影响,因此只考虑每个区域中距离车辆最近障碍物的状态,即图5中左前方和正左方的车辆,右前方和右后方的行人,对于每个障碍物,将障碍物的类型、是否静止、横向和纵向坐标、横向和纵向的速度、与自车的夹角等作为状态量。
考虑到如果规划轨迹的曲率过大,会对车辆行驶有一定影响,因此规划轨迹的曲率也作为重要因素加入多维时间序列中。
对于评价网络模型,通过网络结构搜索的方式确定评价网络模型的结构,探索网络结构,以反向传播算法学习网络参数,从而得到评价网络模型,以最大化专家规划轨迹与采样规划轨迹的代价的间隔为优化目标,如图6所示,具体为:
选定候选网络结构1~n;初始化候选网络结构的参数W1~Wn和权重a1~an;获取训练集和验证集;
将训练集中的多维时间序列作为输入,输入经过候选网络结构得到S1~Sn的输出,将输出乘以a1~an的softmax形式A1~An,再将所有的乘积求和,得到最终的输出;
使用验证集来更新候选网络的权重a1~an,再使用训练集更新候选网络的参数,如果候选网络没有收敛,则重复此步骤直至候选网络收敛:
对A1~An进行排序,选择其中最大的k个权重所对应的候选网络结构作为评价网络模型的结构。
本实施例中,在确定评价网络模型的结构时,如图7所示,使用以下候选网络结构:LSTM1,隐层节点数为100个;LSTM2,隐层节点数为50个;GRU1,隐层节点数为100个;GRU2,隐层节点数为50个,训练过程中,评价网络的输出计算方式如下:
Z=exp(a1)+exp(a2)+exp(a3)+exp(a4)
采用交替更新的方式优化候选网络结构的参数W和候选网络结构的权重a1~a4,在候选网络收敛后,再对最终的得到网络结构进行训练。
本实施例还提供了一种车辆轨迹评价网络模型的训练装置,该训练装置失效的功能对应上述训练方法执行的步骤,包括:
样本数据集获取模块,用于获取基于采样规划轨迹和专家规划轨迹的样本数据集,以及进行数据扩充和数据增广,在样本数据集中增加扰动专家规划轨迹和障碍专家规划轨迹;
评价网络模型生成模块,通过网络结构搜索的方式确定评价网络模型的结构,初始化生成评价网络模型;
评价网络模型训练模块,根据样本数据集对评价网络模型进行训练,训练完成的评价网络模型中,专家规划轨迹的代价最低,且专家规划轨迹与采样规划轨迹的代价的间隔最大。
一种存储介质,其上存储有计算机程序,计算机程序被执行时实现评价网络模型训练方法的步骤。
得到评价网络模型后,应用在实车中。实际应用时,获取实车数据后,首先通过路径规划算法及采样算法获得候选轨迹集合;通过比较所有候选轨迹在评价网络模型的代价,选择代价最低的候选轨迹作为推荐行驶轨迹,按照推荐行驶轨迹行驶。
评价网络模型用于评价一条规划轨迹在某些方面的表现,比如安全,舒适性等方面。本申请建立了评价网络模型,人类驾驶轨迹在评价网络模型的评价标准下,能够获得最好的表现,即最低的代价,而一条符合人类驾驶经验的规划轨迹,经过评价网络模型,也能获得最好的评价,即最低的代价,因此,生成多条候选轨迹后,根据评价网络模型输出的代价,选择代价最低的一条轨迹,作为推荐驾驶轨迹,也就是最符合人类驾驶经验的轨迹作为推荐驾驶轨迹。
本申请提供的评价网络模型训练方法,以采集的实车数据为基础,得到采样规划轨迹和人类驾驶员的专家规划轨迹作为样本数据集,通过网络结构搜索的方式确定评价网络模型的结构,训练评价网络模型,越符合人类驾驶经验的规划轨迹在评价网络模型中的代价越低,且采样规划轨迹与专家规划轨迹的代价的间隔最大,这样得到的评价网络模型可以找到最符合人类驾驶经验的规划轨迹。
与传统的轨迹规划方法相比,本申请是基于采集的实车数据实现的,不需要定制化建模或仿真,实现实车数据的持续优化和迭代,能更加快速的适应新增的驾驶场景。
与基于模仿学习的轨迹规划方法相比,评价函数的设计不再依赖手动设计,以专家规划轨迹的代价最低,且采样规划轨迹与专家规划轨迹的代价的间隔最大为目标,得到的评价网络模型可以评价更加多样的轨迹。
在样本数据集中增加了扰动专家规划轨迹和障碍专家规划轨迹,扩充了样本数据集的多样性和规模,增强了评价网络模型的泛化性能。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。
Claims (10)
1.一种车辆轨迹评价网络模型的训练方法,其特征在于,包括以下步骤:
获取样本数据集,所述样本数据集是基于多条采样规划轨迹和多条人类驾驶员驾驶车辆形成的专家规划轨迹得到的;
初始化生成评价网络模型;
以样本数据集为基础,训练所述评价网络模型,使得专家规划轨迹在评价网络模型中的代价最低,且专家规划轨迹与采样规划轨迹在评价网络模型中的代价的间隔最大。
2.根据权利要求1所述的车辆轨迹评价网络模型的训练方法,其特征在于,获取样本数据集的过程如下:获取包含多组实车数据的原始数据集,以原始数据集为基础,通过路径规划算法和采样算法生成多条采样规划轨迹;获取多条人类驾驶员驾驶车辆形成的专家规划轨迹;将采样规划轨迹和专家规划轨迹转换为多维时间序列,得到样本数据集。
3.根据权利要求2所述的车辆轨迹评价网络模型的训练方法,其特征在于,所述样本数据集中还包括扰动专家规划轨迹转换的多维时间序列,扰动专家规划轨迹的获取过程为:在专家规划轨迹的横向和纵向上改变速度和偏差,得到多条初步规划轨迹,将通过碰撞检测的初步规划轨迹作为扰动专家规划轨迹。
4.根据权利要求2所述的车辆轨迹评价网络模型的训练方法,其特征在于,所述样本数据集中还包括障碍专家轨迹转换的多维时间序列,障碍专家规划轨迹的获取过程为:获取实车数据中的障碍物信息,提取障碍物中机动车的行驶轨迹,去除行驶异常的机动车的行驶轨迹,得到障碍专家规划轨迹。
5.根据权利要求2所述的车辆轨迹评价网络模型的训练方法,其特征在于,所述多维时间序列为状态量在规划周期内的多个时刻的取值,所述状态量包括道路信息状态量、自车状态信息状态量和障碍物信息状态量。
6.根据权利要求5所述的车辆轨迹评价网络模型的训练方法,其特征在于,所述道路信息状态量包括道路的限速;所述自车状态信息包括速度和加速度;所述障碍物信息状态量包括车辆周边各个区域内距离车辆最近的障碍物信息,所述障碍物信息包括障碍物类型、障碍物的坐标和障碍物的速度。
7.根据权利要求2所述的车辆轨迹评价网络模型的训练方法,其特征在于,使用路径规划算法获得车辆的路径和路径曲线方程;使用采样算法对路径进行采样,得到采样规划轨迹,采样过程具体为:
获取规划周期T、时间采样间隔δ、单位速度增量μ、最大采样速度υ、最大采样加速度α、最大采样负加速度-α和车辆在初始时刻t0的初始速度η;
根据规划周期T和时间采样间隔δ获得采样时刻t1,t2,t3……T;根据最大采样速度υ和单位速度增量μ获得所有可能的采样速度μ,2μ,3μ……υ;
依次确定各个采样时刻t1,t2,t3……T的速度,其中,相邻的采样时刻的速度差值不超过最大采样加速度α和最大采样负加速度-α;
根据每个采样时刻的速度计算车辆的纵向位置坐标,得到表示时间和纵向位置坐标的ST轨迹{(s0,t0),(s1,t1),(s2,t2),……(sT,T)},将ST轨迹中每个采样时刻的纵向位置坐标代入路径曲线方程,得到采样规划轨迹。
8.根据权利要求1所述的车辆轨迹评价网络模型的训练方法,其特征在于,以网络结构搜索的方式确定评价网络模型的结构,初始化生成评价网络模型,具体为:
选定候选网络结构1~n;初始化候选网络结构的参数W1~Wn和权重a1~an;获取训练集和验证集;
将训练集作为输入,输入经过候选网络结构得到S1~Sn的输出,将输出乘以a1~an的softmax形式A1~An,再将所有的乘积求和,得到最终的输出;
使用验证集来更新候选网络的权重a1~an,再使用训练集更新候选网络的参数,如果候选网络没有收敛,则重复此步骤直至候选网络收敛;
对A1~An进行排序,选择其中最大的k个权重所对应的候选网络结构作为评价网络模型的结构。
9.一种车辆轨迹评价网络模型的训练装置,其特征在于,包括:
样本数据集获取模块,用于获取基于采样规划轨迹和专家规划轨迹的样本数据集;
评价网络模型生成模块,用于确定评价网络模型的结构,初始化生成评价网络模型;
评价网络模型训练模块,用于根据样本数据集对评价网络模型进行训练,训练完成的评价网络模型中,专家规划轨迹的代价最低,且专家规划轨迹与采样规划轨迹的代价的间隔最大。
10.一种存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被执行时实现如权利要求1-8中任一所述的评价网络模型训练方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110450469.5A CN113239986B (zh) | 2021-04-25 | 2021-04-25 | 车辆轨迹评价网络模型的训练方法、装置和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110450469.5A CN113239986B (zh) | 2021-04-25 | 2021-04-25 | 车辆轨迹评价网络模型的训练方法、装置和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113239986A true CN113239986A (zh) | 2021-08-10 |
CN113239986B CN113239986B (zh) | 2023-04-18 |
Family
ID=77129201
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110450469.5A Active CN113239986B (zh) | 2021-04-25 | 2021-04-25 | 车辆轨迹评价网络模型的训练方法、装置和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113239986B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114348021A (zh) * | 2022-01-05 | 2022-04-15 | 清华大学 | 基于强化学习的车辆自主极限驾驶规划控制方法及系统 |
CN114543831A (zh) * | 2022-04-18 | 2022-05-27 | 季华实验室 | 基于驾驶风格的路径规划方法、装置、设备及存储介质 |
CN116225024A (zh) * | 2023-04-11 | 2023-06-06 | 酷黑科技(北京)有限公司 | 数据处理方法、装置及自动驾驶台架 |
CN116653931A (zh) * | 2023-08-01 | 2023-08-29 | 禾昆科技(北京)有限公司 | 车辆泊车控制方法、装置、电子设备和计算机可读介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009137410A (ja) * | 2007-12-05 | 2009-06-25 | Toyota Motor Corp | 走行軌跡生成方法及び走行軌跡生成装置 |
CN108734325A (zh) * | 2017-04-13 | 2018-11-02 | 北京嘀嘀无限科技发展有限公司 | 规划路径的评价方法及装置 |
CN111413974A (zh) * | 2020-03-30 | 2020-07-14 | 清华大学 | 一种基于学习采样式的汽车自动驾驶运动规划方法及系统 |
CN111428960A (zh) * | 2020-01-10 | 2020-07-17 | 武汉理工大学 | 一种融合多源车载传感器信息的智能车辆驾驶性自动化评价方法 |
CN111591306A (zh) * | 2020-03-30 | 2020-08-28 | 浙江吉利汽车研究院有限公司 | 自动驾驶车辆的行驶轨迹规划方法、相关设备及存储介质 |
CN111702754A (zh) * | 2020-05-14 | 2020-09-25 | 国网安徽省电力有限公司检修分公司 | 一种基于模仿学习的机器人避障轨迹规划方法及机器人 |
US20200353951A1 (en) * | 2017-10-10 | 2020-11-12 | Volkswagen Aktiengesellschaft | Evaluation of components of driving functions and roadway detection in different processing stages |
CN112230659A (zh) * | 2020-10-16 | 2021-01-15 | 深圳裹动智驾科技有限公司 | 精准规划运动轨迹的方法、智能控制设备及自动驾驶车辆 |
CN112465395A (zh) * | 2020-12-15 | 2021-03-09 | 同济大学 | 一种面向自动驾驶汽车的多维度综合评价方法及装置 |
CN112633591A (zh) * | 2020-12-30 | 2021-04-09 | 成都艾特能电气科技有限责任公司 | 一种基于深度强化学习的空间搜索方法及设备 |
-
2021
- 2021-04-25 CN CN202110450469.5A patent/CN113239986B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009137410A (ja) * | 2007-12-05 | 2009-06-25 | Toyota Motor Corp | 走行軌跡生成方法及び走行軌跡生成装置 |
CN108734325A (zh) * | 2017-04-13 | 2018-11-02 | 北京嘀嘀无限科技发展有限公司 | 规划路径的评价方法及装置 |
US20200353951A1 (en) * | 2017-10-10 | 2020-11-12 | Volkswagen Aktiengesellschaft | Evaluation of components of driving functions and roadway detection in different processing stages |
CN111428960A (zh) * | 2020-01-10 | 2020-07-17 | 武汉理工大学 | 一种融合多源车载传感器信息的智能车辆驾驶性自动化评价方法 |
CN111413974A (zh) * | 2020-03-30 | 2020-07-14 | 清华大学 | 一种基于学习采样式的汽车自动驾驶运动规划方法及系统 |
CN111591306A (zh) * | 2020-03-30 | 2020-08-28 | 浙江吉利汽车研究院有限公司 | 自动驾驶车辆的行驶轨迹规划方法、相关设备及存储介质 |
CN111702754A (zh) * | 2020-05-14 | 2020-09-25 | 国网安徽省电力有限公司检修分公司 | 一种基于模仿学习的机器人避障轨迹规划方法及机器人 |
CN112230659A (zh) * | 2020-10-16 | 2021-01-15 | 深圳裹动智驾科技有限公司 | 精准规划运动轨迹的方法、智能控制设备及自动驾驶车辆 |
CN112465395A (zh) * | 2020-12-15 | 2021-03-09 | 同济大学 | 一种面向自动驾驶汽车的多维度综合评价方法及装置 |
CN112633591A (zh) * | 2020-12-30 | 2021-04-09 | 成都艾特能电气科技有限责任公司 | 一种基于深度强化学习的空间搜索方法及设备 |
Non-Patent Citations (3)
Title |
---|
NAVID MOHAJER等: "Evaluation of the Path Tracking Performance of Autonomous Vehicles using the Universal Motion Simulator", 《2018 IEEE INTERNATIONAL CONFERENCE ON SYSTEMS,MAN AND CYBERNETICS》 * |
SUMMER: "【自动驾驶】运动规划丨成本函数丨二次规划", 《HTTPS://ZHUANLAN.ZHIHU.COM/P/343717675》 * |
王媛等: "自适应路径规划系统研究", 《公路交通科技》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114348021A (zh) * | 2022-01-05 | 2022-04-15 | 清华大学 | 基于强化学习的车辆自主极限驾驶规划控制方法及系统 |
CN114348021B (zh) * | 2022-01-05 | 2023-10-20 | 清华大学 | 基于强化学习的车辆自主极限驾驶规划控制方法及系统 |
CN114543831A (zh) * | 2022-04-18 | 2022-05-27 | 季华实验室 | 基于驾驶风格的路径规划方法、装置、设备及存储介质 |
CN114543831B (zh) * | 2022-04-18 | 2022-10-18 | 季华实验室 | 基于驾驶风格的路径规划方法、装置、设备及存储介质 |
CN116225024A (zh) * | 2023-04-11 | 2023-06-06 | 酷黑科技(北京)有限公司 | 数据处理方法、装置及自动驾驶台架 |
CN116653931A (zh) * | 2023-08-01 | 2023-08-29 | 禾昆科技(北京)有限公司 | 车辆泊车控制方法、装置、电子设备和计算机可读介质 |
CN116653931B (zh) * | 2023-08-01 | 2024-02-23 | 禾昆科技(北京)有限公司 | 车辆泊车控制方法、装置、电子设备和计算机可读介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113239986B (zh) | 2023-04-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113239986B (zh) | 车辆轨迹评价网络模型的训练方法、装置和存储介质 | |
CN107169567B (zh) | 一种用于车辆自动驾驶的决策网络模型的生成方法及装置 | |
CN111267830B (zh) | 一种混合动力公交车能量管理方法、设备和存储介质 | |
CN114170789B (zh) | 基于时空图神经网络的智能网联车换道决策建模方法 | |
CN110555476B (zh) | 一种适用于人机混驾环境下智能车辆换道轨迹预测方法 | |
CN113704956A (zh) | 一种基于数字孪生技术的城市道路在线微观仿真方法及系统 | |
CN111645673B (zh) | 一种基于深度强化学习的自动泊车方法 | |
CN112677982B (zh) | 基于驾驶员特性的车辆纵向速度规划方法 | |
He et al. | Probabilistic intention prediction and trajectory generation based on dynamic bayesian networks | |
CN113901718A (zh) | 一种跟驰状态下基于深度强化学习的驾驶避撞优化方法 | |
CN113722835A (zh) | 拟人化随机换道驾驶行为建模方法 | |
Zhang et al. | Multi-vehicle interaction scenarios generation with interpretable traffic primitives and gaussian process regression | |
CN111907523A (zh) | 一种基于模糊推理的车辆跟驰寻优控制方法 | |
CN112749508B (zh) | 一种基于gmm和bp神经网络的路感模拟方法 | |
CN112632706B (zh) | 一种基于gmm和cart回归树的路感模拟方法 | |
CN116620327A (zh) | 基于PPO和Lattice实现自动驾驶的高速场景的变道决策方法 | |
CN111341102A (zh) | 运动基元库构建方法和装置、连接运动基元的方法和装置 | |
CN116486356A (zh) | 一种基于自适应学习技术的狭窄场景轨迹生成方法 | |
CN112528568B (zh) | 一种基于K-Means和BP神经网络的路感模拟方法 | |
CN115096305A (zh) | 一种基于生成对抗网络和模仿学习的智能驾驶汽车路径规划系统及方法 | |
CN112907969B (zh) | 一种预测道路交通流量的方法及系统 | |
CN114701517A (zh) | 基于强化学习的多目标复杂交通场景下自动驾驶解决方法 | |
CN113806857A (zh) | 一种基于变分图自编码器的高速列车节能制动方法 | |
CN114995415A (zh) | 一种基于时空可达集理论的自动驾驶汽车轨迹规划方法 | |
CN114148349A (zh) | 一种基于生成对抗模仿学习的车辆个性化跟驰控制方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |