CN109839937B

CN109839937B - 确定车辆自动驾驶规划策略的方法、装置、计算机设备

Info

Publication number: CN109839937B
Application number: CN201910185825.8A
Authority: CN
Inventors: 夏中谱; 陈雅琴; 柳长春; 潘屹峰
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2019-03-12
Filing date: 2019-03-12
Publication date: 2023-04-07
Anticipated expiration: 2039-03-12
Also published as: CN109839937A

Abstract

本发明提出了确定车辆自动驾驶的规划策略的方法、装置、计算机设备和计算机可读存储介质，其中确定车辆自动驾驶的规划策略的方法可以包括：采集驾驶员驾驶过程中的轨迹数据和场景数据；从轨迹数据和场景数据中提取驾驶员驾驶策略；向驾驶员驾驶策略输入相应的场景数据，从而产生想象的规划策略；将驾驶员驾驶策略与想象的规划策略进行比较，使用机器学习方法，确定车辆自动驾驶的规划策略。这样解决了自动驾驶情况下存在的驾驶策略上的冲突，使得自动驾驶车辆进一步满足了安全性和舒适性的要求。

Description

确定车辆自动驾驶规划策略的方法、装置、计算机设备

技术领域

本发明涉及机动车驾驶领域，具体涉及一种确定车辆自动驾驶规划策略的方法、装置、计算机设备、计算机存储介质等。

背景技术

现有技术中常用的速度规划方式是使用规则和参数的方式进行构建，存在的问题在于，参数调整困难，效率低下。经常出现在参数调整过程中在当前场景调试已经成功，而之前调试成功的场景却遭遇失败的情况。例如在车辆自动驾驶的行驶过程中，在本车的前方存在车辆的情况下(前方的车辆与本车处于同一车道)，自动驾驶系统此时判断可能需要减速。但是同时在自动驾驶车辆(本车)的相邻车道也存在车辆的情况下，这时自动驾驶系统可能提醒自动驾驶车辆需要加速以避免与相邻车道的车辆碰撞。这时就存在到底是加速还是减速的驾驶策略上的冲突。

现有技术中迫切需要解决上述存在的问题。

发明内容

如何解决这些策略上的冲突是本发明要解决的技术问题。

根据本发明的第一方面，提供了一种确定车辆自动驾驶的规划策略的方法，可以包括：

采集驾驶员驾驶过程中的轨迹数据和场景数据；

从轨迹数据和场景数据中提取驾驶员驾驶策略；

向驾驶员驾驶策略输入相应的场景数据，从而产生想象的规划策略；

将驾驶员驾驶策略与想象的规划策略进行比较，使用机器学习方法，确定车辆自动驾驶的规划策略。

在本发明的一个实施例中，向驾驶员驾驶策略输入相应的场景数据，从而产生想象的规划策略可以包括：

向驾驶员驾驶策略输入采集的场景数据，从而产生想象的规划策略。

在本发明的另一个实施例中，将驾驶员驾驶策略与想象的规划策略进行比较，使用机器学习方法，确定车辆自动驾驶的规划策略可以包括：

构建驾驶员驾驶策略情况下的损失函数和想象的规划策略情况下的损失函数，根据驾驶员驾驶策略情况下的损失函数和想象的规划策略情况下的损失函数的对比结果，修正想象的规划策略。

在本发明的又一个实施例中，其中机器学习方法可以包括：

度量学习方法、逆强化学习方法。

在本发明的再一个实施例中，其中采集的驾驶员驾驶过程中的轨迹数据可以包括：

车辆的位置信息、速度信息、加速度信息。

在本发明的一个实施例中，其中采集的驾驶员驾驶过程中的场景数据可以包括：

车辆的左侧车轮距离车道中间线的距离、车辆的左侧车轮距离车辆所在车道的左线的距离、车辆的右侧车轮距离车道中间线的距离、车辆的右侧车轮距离车辆所在车道的右线的距离、车辆距离前方车辆的距离、车辆距离左边相邻车道的车辆的距离、车辆距离右边相邻车道的车辆的距离。

根据本发明的第二方面，提供了一种确定车辆自动驾驶的规划策略的装置，可以包括：

采集单元，用于采集驾驶员驾驶过程中的轨迹数据和场景数据；

提取单元，用于从轨迹数据和场景数据中提取驾驶员驾驶策略；

产生单元，用于向驾驶员驾驶策略输入相应的场景数据，从而产生想象的规划策略；

确定单元，用于将驾驶员驾驶策略与想象的规划策略进行比较，使用机器学习方法，确定车辆自动驾驶的规划策略。

在本发明的一个实施例中，其中向驾驶员驾驶策略输入相应的场景数据，从而产生想象的规划策略可以包括：

在本发明的另一个实施例中，其中将驾驶员驾驶策略与想象的规划策略进行比较，使用机器学习方法，确定车辆自动驾驶的规划策略可以包括：

在本发明的又一个实施例中，其中机器学习方法可以包括：

度量学习方法、逆强化学习方法。

在本发明的一个实施例中，其中采集的驾驶员驾驶过程中的轨迹数据可以包括：

车辆的位置信息、速度信息、加速度信息。

在本发明的另一个实施例中，其中采集的驾驶员驾驶过程中的场景数据可以包括：

根据本发明的第三方面，提供了一种计算机设备，可以包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当该一个或多个程序被该一个或多个处理器执行时，使得该一个或多个处理器实现上述的方法。

根据本发明的第四方面，提供了一种计算机可读存储介质，其存储有计算机程序，该程序被处理器执行时实现上述的方法。

借助于本发明的确定车辆自动驾驶的规划策略的方法、装置等，解决了自动驾驶情况下存在的驾驶策略上的冲突，使得自动驾驶车辆进一步满足了安全性和舒适性的要求。

上述概述仅仅是为了说明的目的，并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外，通过参考附图和以下的详细描述，本发明进一步的方面、实施方式和特征将会是容易明白的。

附图说明

在附图中，除非另外规定，否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解，这些附图仅描绘了根据本发明公开的一些实施方式，而不应将其视为是对本发明范围的限制。

图1示意性示出根据本发明第一方面一个实施例的确定车辆自动驾驶的规划策略方法的流程图；

图2示意性示出根据本发明一个实施例的向驾驶员驾驶策略输入相应的场景数据，从而产生想象的规划策略的示意图；

图3示意性示出根据本发明一个实施例的将驾驶员驾驶策略与想象的规划策略进行比较，使用机器学习方法，确定车辆自动驾驶的规划策略的示意图；

图4示意性示出根据本发明一个实施例的机器学习方法的示意图；

图5示意性示出根据本发明一个实施例的采集的驾驶员驾驶过程中的轨迹数据的示意图；

图6示意性示出根据本发明一个实施例的车辆处于自动驾驶状态的示意图；

图7示意性示出根据本发明第二个方面的确定车辆自动驾驶的规划策略的装置的示意图；

图8示意性示出根据本发明第三个方面的关于计算机设备的一个实施例。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

在本公开的各个实施例的描述中，术语“包括”及其类似用语应当理解为开放性包含，即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。下文还可能包括其他明确的和隐含的定义。

在本发明的各个实施例中提到的术语“度量学习”具有本领域中的通常含义，即“度量学习”是源于对对象间关系的利用。通过学习对象之间的距离或相似度，度量学习能够用于分析对象之间的关联、比较关系。

在本发明的各个实施例中提到的术语“逆强化学习”具有本领域中的通常含义，可以定义为从专家示例中学到回报函数。传统强化学习在很多复杂问题上难以学得较优策略，而逆强化学习通过专家策略，往往能够取得更好的效果。例如在预测驾驶员行为以及规划机器人步态等问题方面，逆强化学习都取得了很好地效果。

在本发明的各个实施例中提到的术语“损失函数”是用来估量模型的预测值f(x)与真实值Y的不一致程度，它是一个非负实值函数，通常使用L(Y，f(x))来表示，损失函数越小，该模型的鲁棒性就越好。损失函数是经验风险函数的核心部分，也是结构风险函数重要组成部分。通俗地讲，在统计学中损失函数是一种衡量损失和错误程度的函数。

下面结合本发明附图1-8详细地描述本发明的各个实施例。

图1示意性示出根据本发明第一方面一个实施例的确定车辆自动驾驶的规划策略的方法100，可以包括：

步骤102，采集驾驶员驾驶过程中的轨迹数据和场景数据；

步骤104，从轨迹数据和场景数据中提取驾驶员驾驶策略；

步骤106，向驾驶员驾驶策略输入相应的场景数据，从而产生想象的规划策略；

步骤108，将驾驶员驾驶策略与想象的规划策略进行比较，使用机器学习方法，确定车辆自动驾驶的规划策略。

在本发明的一个实施例中，步骤102中采集了驾驶员驾驶过程中相关的轨迹数据traj和场景数据A；下面参考图6描述一下确定车辆自动驾驶的规划策略。需要说明的是，在本发明的各个实施例中为了计算方便，暂时忽略车辆轮胎的宽度或者说厚度。

例如在从出发地到目的地的过程中，驾驶员驾驶过程中的轨迹数据traj₁，traj₂，traj₃，……，traj_n可以包括车辆的位置信息P₁、P₂、P₃、……P_n、速度信息V₁、V₂、V₃、…V_n(表示是加速、减速还是匀速等)、加速度信息a₁、a₂、a₃、……a_n等，在本发明的各个实施例中提到的n都是大于等于1的正整数。

在从出发地到目的地的过程中，场景数据A包含了本车120的左侧车轮距离车道中间线的距离例如Y₁、Y₂、Y₃、……Y_n(在图6中以Y_n表示)、本车120的左侧车轮距离本车所在车道的左线的距离Y-Y₁、Y-Y₂、Y-Y₃、……Y-Y_n(在图6中以Y-Y_n表示，其中的Y代表本车所在车道的中间线到该车道左线的距离，是道路本身决定的数值)、本车120的右侧车轮距离车道中间线的距离Y₁₁、Y₂₂、Y₃₃、……Y_nn(在图6中以Y_nn表示)、本车的右侧车轮距离本车所在车道的右线的距离Y-Y₁₁、Y-Y₂₂、Y-Y₂₂、……Y-Y_nn(在图6中以Y-Y_nn表示，其中Y代表本车车道的中间线到该车道右线的距离，是道路本身决定的数值，其中本车车道的中间线到该车道右线的距离与本车车道的中间线到该车道左线的距离基本上是相等的，因此在图6中都是以Y表示的)、本车120距离前方车辆122的距离L、本车120距离左边相邻车道的车辆124的距离M、本车120距离右边相邻车道的车辆126的距离N等等。

在步骤104中提到了从轨迹数据和场景数据中提取驾驶员驾驶策略；具体的可以包括：

从上述的轨迹数据，例如车辆的位置信息、速度信息、加速度(加速还是减速)和场景数据的信息中提取驾驶员的驾驶策略例如W₁、W₂、W₃、……W_n。

得到的驾驶策略W包含了轨迹数据traj₁，traj₂，traj₃，……，traj_n，和当时的场景数据A₁、A₂、A₃……、A_n，例如在本车120的车道上前方出现车辆、并且左侧相邻车道上存在障碍物例如车辆的情况下(场景数据)，驾驶员是习惯于加速并且并入左侧车道超车，还是习惯于并入右侧车道，从本车车道前方车辆的右侧超车，还是减速等待时机等等(轨迹信息)。

在本发明的一个实施例中，例如针对场景数据A₁，轨迹数据traj₁情况，提取出的驾驶员驾驶策略W₁可以表示为W₁＝f(A₁，traj₁)；

针对场景数据A₂，轨迹数据traj₂情况，提取出的驾驶员驾驶策略W₂可以表示为W₂＝f(A₂，traj₂)；

针对场景数据A₃，轨迹数据traj₃情况，提取出的驾驶员驾驶策略W₃可以表示为W₃＝f(A₃，traj₃)；

……

针对场景数据A_n，轨迹数据traj_n情况，提取出的驾驶员驾驶策略W_n可以表示为W_n＝f(A_n，traj_n)；

最后将得到的驾驶策略W₁、W₂、W₃、……W_n拟合得到从目的地到出发地的驾驶员驾驶策略W＝f(W₁，W₂，W₃，……W_n)

在步骤106中提到的向驾驶员驾驶策略W输入相应的场景数据A，从而产生想象的规划策略G可以包括：

向驾驶员驾驶策略W＝f(W₁，W₂，W₃，……W_n)输入相同的场景数据A₁、A₂、A₃、……A_n，驾驶员驾驶策略W＝f(W₁，W₂，W₃，……W_n)会随机给出想象的轨迹数据traj_image₁，traj_image₂，traj_image₃，……traj_image_n，对应的想象的规划策略G₁＝f(A₁，traj_image₁)、G₂＝f(A₂，traj_image₂)、G₃＝f(A₃，traj_image₃)、……G_n＝f(A_n，traj_image_n)，G＝f(G₁，G₂，G₃，……G_n)，如在图2所示的。需要说明的是，这里想象的规划策略G₁＝f(A₁，traj_image₁)、G₂＝f(A₂，traj_image₂)、G₃＝f(A₃，traj_image₃)、……G_n＝f(A_n，traj_image_n)，G＝f(G₁，G₂，G₃，……G_n)就是后面需要修正的想象的规划策略。

在步骤108中提到了将驾驶员驾驶策略W与想象的规划策略G进行比较，使用机器学习方法，确定车辆自动驾驶的规划策略，具体可以包括下面的步骤：

构建驾驶员驾驶策略情况下的损失函数cost_人和想象的规划策略情况下的损失函数cost_image，根据驾驶员驾驶策略情况下的损失函数cost_人和想象的规划策略情况下的损失函数cost_image的对比结果，修正想象的规划策略G₁、G₂、G₃、……G_n，从而得到适合于自动驾驶情况下的规划策略G₁’、G₂’、G₃’、……G_n’。

对于场景数据A₁，对应在场景数据A₁情况下的轨迹数据traj₁，驾驶员驾驶策略W₁＝f(A₁，traj₁)，构建cost_人-1＝f(A₁，traj₁，W₁)，其中的cost_人-1表示在驾驶员驾驶情况下的损失函数。在场景数据A₁与驾驶员驾驶情况下的场景数据A₁相同情况下，对应在场景数据A₁情况下的想象的轨迹数据traj_image₁，规划策略G₁＝f(A₁，traj_image₁)，构建cost_image-1＝f(A₁，traj_image₁，G₁)，其中的cost_image-1表示在自动驾驶情况下的损失函数。将所构建的cost_人-1＝f(A₁，traj₁，W₁)与cost_image-1＝f(A₁，traj_image₁，G₁)进行对比，例如借助于度量学习和逆强化学习等机器学习方法进行对比，若cost_人-1的损失函数是最低的，则认为在场景数据A₁情况下的轨迹数据traj₁是最合理的，修正规划策略G₁使得cost_image-1尽量接近于cost_人-1。

需要说明的是，度量学习和逆强化学习等机器学习方法在本领域中是已经知晓的，在此不再赘述。

类似的，对于场景数据A₂，对应在场景数据A₂情况下的轨迹数据traj₂，驾驶员驾驶策略W₂＝f(A₂，traj₂)，构建cost_人-2＝f(A₂，traj₂，W₂)，其中的cost_人-2表示在驾驶员驾驶情况下的损失函数。在场景数据A₂与驾驶员驾驶情况下的场景数据A₂相同情况下，对应在场景数据A₂情况下的想象的轨迹数据traj_image₂，规划策略G₂＝f(A₂，traj_image₂)，构建cost_image-2＝f(A₂，traj_image₂，G₂)，其中的cost_image-2表示在自动驾驶情况下的损失函数。将所构建的cost_人-2＝f(A₂，traj₂，W₂)与cost_image-2＝f(A₂，traj_image₂，G₂)进行对比，若cost_人-2的损失函数是最低的，则认为在场景数据A₂情况下的轨迹数据traj₂是最合理的，修正规划策略G₂使得cost_image-2尽量接近于cost_人-2。

……

类似的，对于场景数据A_n，对应在场景数据A_n情况下的轨迹数据traj_n，驾驶员驾驶策略W_n＝f(A_n，traj_n)，构建cost_人-n＝f(A_n，traj_n，W_n)，其中的cost_人-n表示在驾驶员驾驶情况下的损失函数。在场景数据A_n与驾驶员驾驶情况下的场景数据A_n相同情况下，对应在场景数据A_n情况下的想象的轨迹数据traj_image_n，规划策略G_n＝f(A_n，traj_image_n)，构建cost_image-n＝f(A_n，traj_image_n，G_n)，其中的cost_image-n表示在自动驾驶情况下的损失函数。将所构建的cost_人-n＝f(A_n，traj_n，W_n)与cost_image-n＝f(A_n，traj_image_n，G_n)进行对比，若cost_人-n的损失函数是最低的，则认为在场景数据A_n情况下的轨迹数据traj_n是最合理的，修正规划策略G_n使得cost_image-n尽量接近于cost_人-n。

经过上述步骤之后，最后得到一套适合于自动驾驶的规划策略，例如在不同的场景数据A₁、A₂、A₃、……或者A_n情况下，修正后的规划策略例如可以为G₁’、G₂’、G₃’、……G_n’。这里的修正后的规划策略G₁’、G₂’、G₃’、……G_n’综合考虑了安全性、舒适性，并且考虑了场景数据。

在本发明的各个实施例中提到的，机器学习方法可以包括：度量学习方法、逆强化学习方法，如在图4所示的。

在本发明的各个实施例中提到的，采集的驾驶员驾驶过程中的轨迹数据可以包括：车辆的位置信息、速度信息、加速度信息等等，如在图5所示的。

借助于本发明的确定车辆自动驾驶的规划策略的方法，解决了自动驾驶情况下存在的驾驶策略上的冲突，使得自动驾驶车辆进一步满足了安全性和舒适性的要求。

根据本发明的第二方面，提供一种确定车辆自动驾驶的规划策略的装置200，可以包括：

采集单元202，用于采集驾驶员驾驶过程中的轨迹数据和场景数据；

提取单元204，用于从轨迹数据和场景数据中提取驾驶员驾驶策略；

产生单元206，用于向驾驶员驾驶策略输入相应的场景数据，从而产生想象的规划策略；

确定单元208，用于将驾驶员驾驶策略与想象的规划策略进行比较，使用机器学习方法，确定车辆自动驾驶的规划策略。

在本发明的再一个实施例中，其中机器学习方法可以包括：度量学习方法、逆强化学习方法。

在本发明的又一个实施例中，其中采集的驾驶员驾驶过程中的轨迹数据可以包括：车辆的位置信息、速度信息、加速度信息。

在本发明的一个实施例中，其中采集的驾驶员驾驶过程中的场景数据可以包括：车辆的左侧车轮距离车道中间线的距离、车辆的左侧车轮距离车辆所在车道的左线的距离、车辆的右侧车轮距离车道中间线的距离、车辆的右侧车轮距离车辆所在车道的右线的距离、车辆距离前方车辆的距离、车辆距离左边相邻车道的车辆的距离、车辆距离右边相邻车道的车辆的距离。

在根据本发明第三方面的实施例中，提供一种计算机设备，可以包括：一个或多个处理器；存储装置，用于存储一或多个程序；当一个或多个程序被一个或多个处理器执行时，使得一个或多个处理器实现如上的方法。

在根据本发明第四方面的实施例中，提供了一种计算机可读存储介质，其存储有计算机程序，该程序被处理器执行时实现如上的方法。

图8示出根据本发明实施例的计算机设备的结构框图。如图8所示，该计算机设备包括：存储器310和处理器320，存储器310内存储有可在处理器320上运行的计算机程序。处理器320执行计算机程序时实现上述实施例中确定车辆自动驾驶的规划策略的方法。存储器310和处理器320的数量可以为一个或多个。

该计算机设备还可以包括：

通信接口330，用于与外界设备进行通信，进行数据交互传输。

存储器310可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

如果存储器310、处理器320和通信接口330独立实现，则存储器310、处理器320和通信接口330可以通过总线相互连接并完成相互间的通信。总线可以是工业标准体系结构(ISA，Industry Standard Architecture)总线、外部设备互连(PCI，PeripheralComponent)总线或扩展工业标准体系结构(EISA，Extended Industry StandardComponent)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，图8中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

可选的，在具体实现上，如果存储器310、处理器320及通信接口330集成在一块芯片上，则存储器310、处理器320及通信接口330可以通过内部接口完成相互间的通信。

本发明实施例提供了一种计算机可读存储介质，其存储有计算机程序，该程序被处理器执行时实现上述实施例中任一的方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读存储介质中。存储介质可以是只读存储器，磁盘或光盘等。

以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到其各种变化或替换，这些都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种确定车辆自动驾驶的规划策略的方法，其特征在于，包括：

采集驾驶员驾驶过程中的轨迹数据和场景数据；

从所述轨迹数据和场景数据中提取驾驶员驾驶策略，所述驾驶员驾驶策略包括与所述场景数据对应的轨迹数据；

向所述驾驶员驾驶策略输入相同的场景数据，从而产生想象的规划策略，所述规划策略包括与所述场景数据对应的想象轨迹数据；

将所述驾驶员驾驶策略与所述想象的规划策略进行比较，使用机器学习方法，确定车辆自动驾驶的规划策略，且其包括：

构建所述驾驶员驾驶策略情况下的损失函数和所述想象的规划策略情况下的损失函数，根据所述驾驶员驾驶策略情况下的损失函数和所述想象的规划策略情况下的损失函数的对比结果，修正所述想象的规划策略，得到车辆自动驾驶的规则策略。

2.根据权利要求1所述的确定车辆自动驾驶的规划策略的方法，其中所述机器学习方法包括：

度量学习方法或逆强化学习方法。

3.根据权利要求2所述的确定车辆自动驾驶的规划策略的方法，其中所述采集的驾驶员驾驶过程中的轨迹数据包括：

所述车辆的位置信息、速度信息或加速度信息。

4.根据权利要求3所述的确定车辆自动驾驶的规划策略的方法，其中所述采集的驾驶员驾驶过程中的场景数据包括：

所述车辆的左侧车轮距离车道中间线的距离、所述车辆的左侧车轮距离所述车辆所在车道的左线的距离、所述车辆的右侧车轮距离车道中间线的距离、所述车辆的右侧车轮距离所述车辆所在车道的右线的距离、所述车辆距离前方车辆的距离、所述车辆距离左边相邻车道的车辆的距离或所述车辆距离右边相邻车道的车辆的距离。

5.一种确定车辆自动驾驶的规划策略的装置，其特征在于，包括：

提取单元，用于从所述轨迹数据和场景数据中提取驾驶员驾驶策略，所述驾驶员驾驶策略包括与所述场景数据对应的轨迹数据；

产生单元，用于向所述驾驶员驾驶策略输入相同的场景数据，从而产生想象的规划策略，所述规划策略包括与所述场景数据对应的想象轨迹数据；

确定单元，用于将所述驾驶员驾驶策略与所述想象的规划策略进行比较，使用机器学习方法，确定车辆自动驾驶的规划策略；

所述确定单元，具体用于构建所述驾驶员驾驶策略情况下的损失函数和所述想象的规划策略情况下的损失函数，根据所述驾驶员驾驶策略情况下的损失函数和所述想象的规划策略情况下的损失函数的对比结果，修正所述想象的规划策略，得到车辆自动驾驶的规划策略。

6.根据权利要求5所述的确定车辆自动驾驶的规划策略的装置，其中所述机器学习方法包括：

度量学习方法或逆强化学习方法。

7.根据权利要求6所述的确定车辆自动驾驶的规划策略的装置，其中所述采集的驾驶员驾驶过程中的轨迹数据包括：

所述车辆的位置信息、速度信息或加速度信息。

8.根据权利要求7所述的确定车辆自动驾驶的规划策略的装置，其中所述采集的驾驶员驾驶过程中的场景数据包括：

9.一种计算机设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1-4中任一所述的方法。

10.一种计算机可读存储介质，其存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-4中任一所述的方法。