CN111434554B

CN111434554B - 基于乘客和环境感知驾驶风格简档来控制自主车辆

Info

Publication number: CN111434554B
Application number: CN202010042318.1A
Authority: CN
Inventors: A.特尔帕兹; G.卡姆希; A.德加尼
Original assignee: GM Global Technology Operations LLC
Current assignee: GM Global Technology Operations LLC
Priority date: 2019-01-15
Filing date: 2020-01-15
Publication date: 2023-06-06
Anticipated expiration: 2040-01-15
Also published as: DE102019133034A1; US20200225676A1; CN111434554A; US10915109B2

Abstract

一种用于控制车辆的方法包括：收集关于人类驾驶风格的数据；基于收集到的数据来机器学习人类驾驶员如何对不同交通场景做出反应，以创建多个人类驾驶风格简档；选择所述多个人类驾驶风格简档中的最佳驾驶简档，其中，基于由所述车辆的乘客提供的反馈来选择最佳驾驶简档，所述反馈指示所述多个人类驾驶风格简档中的每一者的舒适性；基于最佳驾驶简档来创建驾驶计划；命令车辆在受控环境中执行所述驾驶计划，以测试所述最佳驾驶简档的舒适性；并且在所述车辆执行驾驶计划时从所述车辆的乘客接收舒适性等级。

Description

基于乘客和环境感知驾驶风格简档来控制自主车辆

技术领域

本公开大体上涉及自主车辆。更具体地，本公开的各个方面涉及基于预先学习的乘客和环境感知驾驶风格简档来控制自主车辆。

背景技术

自主车辆是能够在很少或没有用户输入的情况下感测其环境并导航的车辆。自主车辆使用感测装置（诸如，雷达、激光雷达、图像传感器、电位计等）来感测其环境。自主车辆系统还使用来自全球定位系统（GPS）技术、导航系统、车辆与车辆通信、车辆到基础设施技术和/或线控驾驶系统的信息来导航车辆。

已经将车辆自动化分类为范围为从对应于不存在具有完全人类控制的自动化的零到对应于不具有人类控制的全自动化的五的数值水平。各种自动驾驶员辅助系统（诸如，巡航控制、自适应巡航控制和停车辅助系统）对应于较低自动化水平，而真正的“无人驾驶”车辆对应于较高自动化水平。

虽然自主车辆提供了优于传统车辆的许多潜在优点，但在某些情况下，可能期望改善自主车辆的移动，例如以更好地接近人类驾驶风格。因此，期望在自主车辆中提供用于接近人类驾驶风格的系统和方法。此外，结合附图以及前述技术领域和背景技术，本公开的其它期望特征和特性将从随后的详细描述和所附权利要求而变得显而易见。

发明内容

自动驾驶汽车中的乘客常常感觉驾驶过于“机械”（例如，突然的动作），并且人类驾驶将对乘坐舒适感和平稳性更加敏感。本公开描述了一种基于对人类驾驶员如何驾驶的分析检查将自主车辆驾驶失误校准以使乘客更加舒适和敏感的自动方法。本公开描述了一种从标记有关于舒适感的乘客反馈的日常人类驾驶数据学习的离线机器学习算法。用附加的受控实验来确定最佳驾驶风格，在该受控实验中，乘客将在遇到不同道路状况时为每种驾驶风格提供舒适性评分。获胜的风格将被用作对自主车辆控制和运动计划模块的实时参考。

本公开描述了一种用于通过舒适感标记的自然数据来学习人类驾驶舒适感目的以及通过对通过受控研究数据学习的良好的“乘客和环境敏感”人类驾驶进行比较来评估和校正驾驶风格算法的自动过程。将对乘客和环境感知简档的参考集成到受控和运动计划模块中。

一种用于控制车辆的方法包括：在人类驾驶员驾驶车辆时收集关于人类驾驶风格的数据；基于收集到的数据来机器学习人类驾驶员如何对不同交通场景做出反应，以创建多个人类驾驶风格简档；经由控制器选择所述多个人类驾驶风格简档中的最佳驾驶简档，其中，基于由车辆的乘客提供的反馈来选择最佳驾驶简档，该反馈指示所述多个人类驾驶风格简档中的每一者的舒适性，并且将所述多个人类驾驶风格简档中的由车辆的乘客评级为具有最高舒适性的人类驾驶风格简档选择为最佳驾驶简档；基于该最佳驾驶简档来创建驾驶计划；经由控制器命令车辆在受控环境中执行驾驶计划，以测试最佳驾驶简档的舒适性；以及通过控制器在车辆执行驾驶计划时接收来自车辆的乘客的舒适性等级。该方法还可以包括：将从车辆的乘客接收到的舒适性等级与预定阈值进行比较。该方法还可以包括：确定从乘客接收到的舒适性等级小于预定阈值；以及响应于确定舒适性等级小于预定阈值，再次基于收集到的数据来机器学习人类驾驶员如何对不同交通场景做出反应。

该方法还可以包括：确定从车辆的乘客接收到的舒适性等级等于或大于预定阈值；以及响应于确定从车辆的乘客接收到的舒适性等级等于或大于预定阈值来结束该方法。收集关于人类驾驶风格的数据可以包括：收集变量数据，其中，变量数据包括加速度、道路物体位置和道路物体行为。关于人类驾驶风格的数据可以是与日常人类驾驶有关的记录。机器学习可以是深度强化学习、随机森林学习和深度神经网络学习。选择最佳驾驶简档可以包括：调查由机器学习输出的多个人类驾驶风格简档以选择最佳驾驶简档。该方法还可以包括：改变车辆的控制和计划系统的参数以实施驾驶计划。命令车辆在受控环境中执行驾驶计划可以包括：在受控环境中模拟交通状况的随机集合。受控环境可以是跑道。

在一个方面中，所述不同交通场景中的一者是超车场景。在人类驾驶员驾驶车辆时收集关于人类驾驶风格的数据可以包括：收集关于人类驾驶员在超车场景期间驾驶时的数据。基于收集到的数据来机器学习人类驾驶员如何对不同交通场景做出反应以创建多个人类驾驶风格简档可以包括：机器学习人类驾驶员如何在超车场景中做出反应。在超车场景中，车辆被称为第一车辆。第一车辆正在第一车道上移动，并且第二车辆正在紧邻第一车道的第二车道上移动。划分的虚线将第一车道与第二车道隔开。第二车辆从第二车道朝向第一车道移动，直到第二车辆正在第一车道上且在第一车道前面移动。在人类驾驶员驾驶车辆时收集关于人类驾驶风格的数据可以包括：收集关于人类驾驶员在超车场景期间驾驶时的数据包括：使用传感器系统，感测：从第一车辆到第二车辆的绝对距离；方向角，其中，该方向角是第一车辆相对于第二车辆的角；行动者相对速度，其中，该行动者相对速度是第一车辆与第二车辆之间的速度差；行动者相对加速度，其中，该行动者相对加速度是第一车辆与第二车辆之间的加速度差；以及行动者取向，其中，该行动者取向是第一车辆的偏航率。控制器可以从传感器系统接收指示绝对距离、方向角、行动者相对速度、行动者相对加速度和行动者取向的输入数据。机器学习人类驾驶员如何在超车场景中做出反应包括：使用传感器系统在超车场景期间感测第一车辆的横向加速度和车辆的纵向加速度；以及学习以下各者之间的关联性：（a）从第一车辆到第二车辆的绝对距离；方向角；行动者相对速度；行动者相对加速度；和行动者取向；以及（b）第一车辆的纵向加速度和横向加速度。

自主车辆包括：多个传感器装置，所述多个传感器装置配置成感测自主车辆的外部环境的可观察条件；以及控制系统，该控制系统与多个传感器装置通信。控制系统配置成控制自主车辆。控制系统包括控制器，并且该控制器被编程为：在人类驾驶员驾驶自主车辆时收集关于人类驾驶风格的数据；基于收集到的数据来机器学习人类驾驶员如何对不同交通状况做出反应，以创建多个人类驾驶风格简档；选择所述多个人类驾驶风格简档中的最佳驾驶简档，其中，基于从车辆乘客接收到的输入来选择最佳驾驶简档，其中，车辆乘客提供关于多种人类驾驶风格的舒适性的反馈；基于最佳驾驶简档来创建驾驶计划；命令自主车辆在受控环境中执行驾驶计划；以及从车辆乘客接收舒适性等级，车辆乘客对由自主车辆执行的驾驶计划的舒适性进行评级。控制器可以配置成将从车辆乘客接收到的舒适性等级与预定阈值进行比较。控制器可以配置成：确定从车辆乘客接收到的舒适性等级小于预定阈值；以及响应于确定舒适性等级小于预定阈值，再次基于收集到的数据来机器学习人类驾驶员如何对不同道路和交通状况做出反应。控制器可以配置成：确定从车辆乘客接收到的舒适性等级等于或大于预定阈值；以及响应于确定从车辆乘客接收到的舒适性等级等于或大于预定阈值，不再进行机器学习。控制器可以配置成收集变量数据。变量数据包括加速度、道路物体位置和道路物体行为。关于人类驾驶风格的收集到的数据是与日常人类驾驶有关的记录。

本发明提出了以下技术方案：

1. 一种用于控制车辆的方法，所述方法包括：

在人类驾驶员驾驶所述车辆时收集关于人类驾驶风格的数据；

基于收集到的数据来机器学习所述人类驾驶员如何对不同交通场景做出反应，以创建多个人类驾驶风格简档；

经由控制器选择所述多个人类驾驶风格简档中的最佳驾驶简档，其中，基于由所述车辆的乘客提供的反馈来选择所述最佳驾驶简档，所述反馈指示所述多个人类驾驶风格简档中的每一者的舒适性，并且将所述多个人类驾驶风格简档中的由所述车辆的所述乘客评级为具有最高舒适性的人类驾驶风格简档选择为所述最佳驾驶简档；

基于所述最佳驾驶简档来创建驾驶计划；

经由所述控制器命令所述车辆在受控环境中执行所述驾驶计划，以测试所述最佳驾驶简档的所述舒适性；以及

通过所述控制器在所述车辆执行所述驾驶计划时接收来自所述车辆的所述乘客的舒适性等级。

2. 根据技术方案1所述的方法，所述方法还包括：将从所述车辆的所述乘客接收到的所述舒适性等级与预定阈值进行比较。

3. 根据技术方案2所述的方法，所述方法还包括：

确定从所述车辆的所述乘客接收到的所述舒适性等级小于所述预定阈值；以及

响应于确定所述舒适性等级小于所述预定阈值，再次基于收集到的数据来机器学习所述人类驾驶员如何对所述不同交通场景做出反应。

4. 根据技术方案2所述的方法，所述方法还包括：

确定从所述车辆的所述乘客接收到的所述舒适性等级等于或大于所述预定阈值；以及

响应于确定从所述车辆的所述乘客接收到的所述舒适性等级等于或大于所述预定阈值来结束所述方法。

5. 根据技术方案3所述的方法，其中，收集关于人类驾驶风格的数据包括：

收集变量数据，其中，所述变量数据包括加速度、道路物体位置和道路物体行为。

6. 根据技术方案5所述的方法，其中，关于人类驾驶风格的所述数据是与日常人类驾驶有关的记录。

7. 根据技术方案6所述的方法，其中，所述机器学习选自包括深度强化学习、随机森林学习和深度神经网络学习的组。

8. 根据技术方案7所述的方法，其中，选择所述最佳驾驶简档包括：调查由所述机器学习输出的所述多个人类驾驶风格简档，以选择所述最佳驾驶简档。

9. 根据技术方案8所述的方法，所述方法还包括：改变所述车辆的控制和计划系统的参数以实施所述驾驶计划。

10. 根据技术方案9所述的方法，其中，命令所述车辆在所述受控环境中执行所述驾驶计划包括：在所述受控环境中模拟交通状况的随机集合，并且所述受控环境是跑道。

11. 根据技术方案1所述的方法，其中：

所述不同交通场景中的一个是超车场景；

在所述人类驾驶员驾驶所述车辆时收集关于人类驾驶风格的数据包括：收集关于所述人类驾驶员在所述超车场景期间驾驶时的数据；

基于收集到的数据来机器学习所述人类驾驶员如何对不同交通场景做出反应以创建所述多个人类驾驶风格简档包括：机器学习所述人类驾驶员如何在所述超车场景中做出反应；以及

在所述超车场景中：

所述车辆是第一车辆；

所述第一车辆正在第一车道上移动；

第二车辆正在紧邻所述第一车道的第二车道上移动；

划分的虚线将所述第一车道与所述第二车道隔开；以及

所述第二车辆从所述第二车道朝向所述第一车道移动，直到所述第二车辆正在所述第一车道上且在所述第一车道前面移动。

12. 根据技术方案11所述的方法，其中，在所述人类驾驶员驾驶所述车辆时收集关于人类驾驶风格的数据包括：收集关于所述人类驾驶员在所述超车场景期间驾驶时的数据，其包括：使用传感器系统，感测：

从所述第一车辆到所述第二车辆的绝对距离；

方向角，其中，所述方向角是所述第一车辆相对于所述第二车辆的角；

行动者相对速度，其中，所述行动者相对速度是所述第一车辆与所述第二车辆之间的速度差；

行动者相对加速度，其中，所述行动者相对加速度是所述第一车辆与所述第二车辆之间的加速度差；以及

行动者取向，其中，所述行动者取向是所述第一车辆的偏航率。

13. 根据技术方案12所述的方法，其中，所述控制器从所述传感器系统接收指示绝对距离、所述方向角、所述行动者相对速度、所述行动者相对加速度和所述行动者取向的输入数据。

14. 根据技术方案13所述的方法，其中，机器学习所述人类驾驶员如何在所述超车场景中做出反应包括：

使用所述传感器系统在所述超车场景期间感测所述第一车辆的横向加速度和所述车辆的纵向加速度；以及

学习以下各者之间的关联性：（a）从所述第一车辆到所述第二车辆的所述绝对距离；方向角；所述行动者相对速度；所述行动者相对加速度；和所述行动者取向；以及（b）所述第一车辆的所述纵向加速度和所述横向加速度。

15. 一种自主车辆，所述自主车辆包括：

多个传感器装置，所述多个传感器装置配置成感测所述自主车辆的外部环境的可观察条件；

控制系统，所述控制系统与所述多个传感器装置通信，其中，所述控制系统配置成控制所述自主车辆，所述控制系统包括控制器，并且所述控制器被编程为：

在人类驾驶员驾驶所述自主车辆时收集关于人类驾驶风格的数据；

基于收集到的数据来机器学习所述人类驾驶员如何对不同交通状况做出反应，以创建多个人类驾驶风格简档；

选择所述多个人类驾驶风格简档中的最佳驾驶简档，其中，基于从车辆乘客接收到的输入来选择所述最佳驾驶简档，其中，所述车辆乘客提供关于所述多种人类驾驶风格的舒适性的反馈；

基于所述最佳驾驶简档来创建驾驶计划；

命令所述自主车辆在受控环境中执行所述驾驶计划；以及

从所述车辆乘客接收舒适性等级，所述车辆乘客对由所述自主车辆执行的所述驾驶计划的舒适性进行评级。

16. 根据技术方案15所述的自主车辆，其中，所述控制器配置成将从所述车辆乘客接收到的所述舒适性等级与预定阈值进行比较。

17. 根据技术方案16所述的自主车辆，其中，所述控制器配置成：

确定从所述车辆乘客接收到的所述舒适性等级小于所述预定阈值；以及

响应于确定所述舒适性等级小于所述预定阈值，再次基于收集到的数据来机器学习所述人类驾驶员如何对不同道路和交通状况做出反应。

18. 根据技术方案16所述的自主车辆，其中，所述控制器配置成：

确定从所述车辆乘客接收到的所述舒适性等级等于或大于所述预定阈值；以及

响应于确定从所述车辆乘客接收到的所述舒适性等级等于或大于所述预定阈值，不再进行机器学习。

19. 根据技术方案17所述的自主车辆，其中，所述控制器配置成：

20. 根据技术方案19所述的自主车辆，其中，关于人类驾驶风格的收集到的数据是与日常人类驾驶有关的记录。

以上发明内容并不旨在表示本公开的每个实施例或每个方面。相反，前述发明内容仅提供了对本文中所阐述的一些新颖概念和特征的范例。当结合附图和所附权利要求书时，本公开的上述特征和优点以及其它特征和优点将从下面对用于实施本公开的所图示的示例和代表性模式的详细描述变得显而易见。此外，本公开明确地包括上文和下文提出的元件和特征的任何和所有组合以及子组合。

附图说明

在下文中将结合以下绘制的附图描述本公开，其中，相同附图标记表示相同元件。

图1是图示了具有控制系统的自主车辆的功能框图。

图2是用于基于预先学习的乘客和环境感知驾驶风格简档来控制图1的自主车辆的方法的流程图。

图3是用于在超车场景期间基于预先学习的乘客和环境感知驾驶风格简档来控制图1的自主车辆的方法的流程图。

图4是左转弯场景的示意性图示。

图5是用于使用自主车辆和环境数据来选择最舒适的运动计划的过程的流程图。

图6是随机森林建模技术的流程图。

本公开可适用于各种修改和替代形式，并且一些代表性实施例在附图中通过示例的方式示出并且将在本文中进行详细描述。然而，应理解，本公开的新颖方面不限于在上文列举的附图中图示的特定形式。相反，本公开将覆盖落入如由所附权利要求书涵盖的本公开的范围内的所有修改、等同方式、组合、子组合、置换、组和替代方案。

具体实施方式

本公开允许呈许多不同形式的实施例。在附图中示出了本公开的代表性实施例，并且将在本文中详细描述这些代表性实施例，同时理解这些实施例被提供为所公开的原理的范例，而不是对本公开的广泛方面的限制。就此而言，例如，在摘要、引言、发明内容和具体实施方式部分中描述的但未在权利要求书中明确阐述的元件和限制不应该以暗示、推断或以其它方式单个地或共同地结合到权利要求中。

下面的详细描述在本质上仅仅是示例性的，并且不旨在限制应用和用途。此外，不旨在受前述技术领域、背景技术、发明内容或以下详细描述中提出的明示或暗示的理论约束。如本文中所使用的，术语“模块”指的是硬件、软件、固件、电子控制部件、处理逻辑和/或处理器装置，其单独地或以组合方式包括但不限于：专用集成电路（ASIC）、电子电路、处理器（共享、专用或组）和存储器，存储器执行一个或多个软件或固件程序、组合逻辑电路和/或提供所描述的功能的其它合适的部件。

本文中可以就功能和/或逻辑块部件以及各种处理步骤方面描述本公开的实施例。应了解，可以通过配置成执行指定功能的数个硬件、软件和/或固件部件来实现这些块部件。例如，本公开的实施例可以采用各种集成电路部件（例如，存储器元件、数字信号处理元件、逻辑元件、查找表等），这些集成电路部件可以在一个或多个微处理器或其它控制装置的控制下执行各种功能。此外，本领域的技术人员应了解，可以结合数个系统来实践本公开的实施例，并且应了解，本文中所描述的系统仅仅是本公开的示例性实施例。

为了简洁起见，在本文中可以不对与系统的信号处理、数据传递、信令、控制和其它功能方面（以及系统的单独操作部件）有关的常规技术进行详细描述。此外，本文中所包含的各个附图中示出的连接线旨在表示各个元件之间的示例功能关系和/或物理联接。应注意，在本公开的实施例中可以存在许多替代或附加的功能关系或物理连接。

参照图1，根据各种实施例，将大体以100示出的控制系统与车辆10相关联。车辆10可以是全自主车辆，并且控制系统100配置成控制车辆10的操作和移动。车辆10可以自主操作或可以由人类驾驶员手动操作（例如，驾驶）。一般而言，控制系统100根据与车辆乘员相关联的乘坐偏好信息来确定用于沿着路线自主操作车辆10的运动计划。就此而言，乘坐偏好信息影响车辆10在横越路线并且避免障碍物时横向和/或纵向地移动的速率，这进而影响乘员所体验的乘坐。

如图1所描绘的，车辆10大体包括底盘12、车身14、前轮16和后轮18。车身布置在底盘12上并且基本上封闭车辆10的部件。车身14和底盘12可以共同形成车架。车轮16至18在各自车身14的相应拐角附近旋转地联接到底盘12。

在各种实施例中，车辆10是自主车辆，并且控制系统100并入自主车辆10（在下文中被称为自主车辆10）中。自主车辆10例如是被自动控制以将乘客从一个位置运送到另一位置的车辆。在所图示的实施例中车辆10被描绘为客车，但应了解，也可以使用其它车辆，包括摩托车、卡车、运动型多功能车（SUV）、休闲车（RV）、船舶、飞机等。在示例性实施例中，自主车辆10是所谓的四级或五级自动化系统。四级系统指示“高度自动化”，指的是自主系统对动态驾驶任务的所有方面的针对驾驶模式的性能，即使人类驾驶员没有适当地对干预请求做出响应。五级系统指示“全自动化”，指的是自主系统在可由人类驾驶员管理的所有道路和环境条件下对动态驾驶任务的所有方面的全时性能。

如所示的，自主车辆10大体包括推进系统20、变速器系统22、转向系统24、制动系统26、传感器系统28、致动器系统30、至少一个数据存储装置32、至少一个控制器34和通信系统36。在各种实施例中，推进系统20可以包括内燃发动机、电机（诸如，牵引马达）和/或燃料电池推进系统。变速器系统22配置成根据可选择的速度比将动力从推进系统20传递到车辆车轮16至18。根据各种实施例，变速器系统22可以包括多级比率自动变速器、无极变速器或其它适合的变速器。制动系统26配置成向车辆车轮16至18提供制动转矩。在各种实施例中，制动系统26可以包括摩擦制动器，线控制动器、再生制动系统（诸如，电机）和/或其它适合的制动系统。转向系统24影响车辆车轮16至18的位置。虽然在本公开的范围内设想的一些实施例中，出于说明性目的将转向系统24描绘为包括转向盘，但转向系统24可以不包括转向盘。

传感器系统28包括感测自主车辆10的外部环境和/或内部环境的可观察条件的一个或多个感测装置40a至40n。感测装置40a至40n可以包括但不限于雷达、激光雷达、全球定位系统、光学相机、热成像相机、超声波传感器、加速度计、惯性测量单元、电位计、时钟、里程表、陀螺仪和/或其它传感器。致动器系统30包括控制一个或多个车辆特征的一个或多个致动器装置42a至42n，所述车辆特征诸如但不限于，推进系统20、变速器系统22、转向系统24和制动系统26。在各种实施例中，车辆特征还可以包括内部和/或外部车辆特征，诸如，门、行李箱和座舱特征，诸如，空气、音乐、照明等。

通信系统36配置成将信息无线地传送到其它实体48（诸如但不限于，其它车辆（“V2V”通信）、基础设施（“V21”通信）、远程系统和/或（参考图2更详细地描述的）个人装置）和从实体48无线地传送信息。在示例性实施例中，通信系统36是配置成使用IEEE 802.11标准或通过使用蜂窝数据通信经由无线局域网（WLAN）进行通信的无线通信系统。然而，在本公开的范围内还考虑附加或替代通信方法，诸如，专用短程通信（DSRC）信道。DSRC信道指的是专门为汽车使用而设计的单向或双向短程至中程无线通信信道以及一组对应协议和标准。

数据存储装置32存储用于自动控制自主车辆10的数据。在各种实施例中，数据存储装置32存储可导航环境的所定义的地图。在各种实施例中，所定义的地图可以由（参考图2进一步详细描述的）远程系统预定义并且从远程系统获得。例如，所定义的地图可以由远程系统组装，并且（无线地和/或以有线方式）被传送到自主车辆10并且存储在数据存储装置32中。如可以了解的，数据存储装置32可以是控制器34的一部分、与控制器34隔开、或者是控制器34的一部分和单独的系统的一部分。控制器34可以包括用于测量时间的内部时钟。

控制器34包括至少一个处理器44和计算机可读存储装置或介质46。处理器44可以是定制处理器或可商购的处理器、中央处理单元（CPU）、图形处理单元（GPU）、与控制器34相关联的若干处理器中的辅助处理器、基于半导体的微处理器（例如，呈微芯片或芯片集的形式）、宏处理器、它们的组合或大体地用于执行指令的装置。计算机可读存储装置或介质46可以在例如只读存储器（ROM）、随机存取存储器（RAM）和不失效存储器（KAM）中包括易失性和非易失性存储装置。KAM是可在处理器44断电时用于存储各种操作变量的持久存储器或非易失性存储器。可以使用数个已知的存储器装置中的任何一种来实施计算机可读存储装置或介质46，这些存储器装置诸如PROM（可编程只读存储器）、EPROM（电PROM）、EEPROM（电可擦除PROM）、闪速存储器或能够存储数据的任何其它电存储装置、磁存储装置、光学存储装置或组合存储装置，这些数据中的一些表示由控制器34在控制自主车辆10时使用的可执行指令。

指令可以包括一个或多个单独的程序，每个程序包括用于实施逻辑功能的可执行指令的有序列表。这些指令在被处理器44执行时接收并处理来自传感器系统28的信号，执行用于自动控制自主车辆10的部件的逻辑、计算、方法和/或算法，并且向致动器系统30生成控制信号以基于逻辑、计算、方法和/或算法来自动控制自主车辆10的部件。尽管在图1中示出了仅一个控制器34，但自主车辆10的实施例可以包括数个控制器34，这些控制器通过合适的通信介质或通信介质的组合进行通信，并且协作以处理传感器信号，执行逻辑、计算、方法和/或算法，并且生成控制信号以自动控制自主车辆10的特征。控制器34被专门编程以执行图2中所示的方法200。

图2图示了用于基于预先学习的乘客和环境感知驾驶风格简档来控制自主车辆10的方法200的流程图。方法200从框202开始，其需要在不同道路和交通场景期间收集关于人类驾驶风格的数据。具体地，关于人类驾驶风格的数据是与日常人类驾驶员驾驶记录数据有关的记录，日常人类驾驶员驾驶记录数据与在人类驾驶驾驶自主车辆10或另一车辆时的自然的人类日常驾驶有关。在框202处，控制器34通过使用传感器系统28记录由传感器系统28感测的变量数据。变量数据可以包括关于人类驾驶的驾驶风格的信息，诸如，加速度、道路物体位置（例如，其它车辆位置、交通信号灯、道路障碍物、车道、出口等）、道路物体行为（例如，其它车辆行为、交通信号灯行为等）、人类驾驶风格的乘客反馈。传感器系统28可以通过例如使用传感器系统的加速度计和/或惯性测量单元来感测自主车辆10（或另一车辆）的加速度，从而感测人类驾驶风格。传感器系统28还可以通过使用其它感测装置40a至40n（诸如，里程表）来感测关于人类驾驶风格（诸如，速度和加加速度）的其它数据。术语“加加速度”指的是加速度的变化率。换言之，加加速度是加速度的时间导数。可以通过使用感测系统28的时钟或控制器34的时钟以及感测系统28的加速度计来计算车辆10（或另一车辆）的加速度的变化率，从而确定加加速度。而且，传感器系统28可以使用雷达、激光雷达、全球定位系统、光学相机、热成像相机、超声波传感器来感测由人类驾驶的自主车辆10（或其它车辆）周围的环境数据。在框202处，控制器34还收集关于来自在数据收集过程期间驾驶的车辆10（或其它车辆）的乘客的反馈的数据。为此，乘客可以具有用于对驾驶风格的舒适性进行评级的平板电脑（其可以包括电位计）。控制器34然后从传感器系统28接收和存储感测到的信息。在框202的数据收集期间，人类仅驾驶车辆10（或另一车辆）。换言之，在框202的数据收集过程期间不执行自主驾驶。在框202之后，方法200继续至框204。

在框204处，控制器34（或另一控制器）基于在框202处收集的数据使用机器学习技术来学习人类驾驶员如何对不同道路和交通状况做出反应，以创建多个人类驾驶风格简档。在框204处可以使用不同机器学习技术，诸如，深度强化学习、深度神经网络学习和随机森林学习。通过使用机器学习技术，控制器34创建不同道路和交通场景中的人类驾驶风格简档的若干模型。然后，方法200继续进行至框206。

在框206处，控制器34（或另一控制器）通过进行研究来选择在框204处创建的所述多个人类驾驶风格简档中的最佳驾驶简档。基于从车辆乘客接收到的输入来选择最佳驾驶简档，其中，车辆乘客在研究期间提供关于多种人类驾驶风格的舒适性的反馈。在此研究中，在所选择的车辆操纵中调查在框204处创建的人类驾驶风格简档（即，自动学习输出模型）。在这些车辆操纵期间，该车辆（例如，车辆10或另一车辆）的乘客对在框204处生成的所述多种人类驾驶风格中的每一者的舒适性（即，舒适感）进行评级。换言之，此研究需要在完全受控环境中探索最舒适的驾驶风格模型，该受控环境模仿在框204中生成的人类驾驶风格。为此，由控制器34在所选择的车辆操纵中驾驶自主车辆10，并且同时，自主车辆10的乘客使用电子平板电脑（包括电位计）对所述多种人类驾驶风格中的每一者的舒适性（即，舒适感）进行评级（或对其进行排名）。将所述多种人类驾驶风格中的由乘客评级为具有最高舒适性（即，舒适感）的人类驾驶风格选择为最佳驾驶简档。最佳驾驶简档可以被称为乘客环境感知驾驶风格。而且，控制器34基于最佳驾驶简档来创建驾驶计划。换言之，控制器34创建与最佳驾驶简档一致的驾驶计划。接下来，方法200继续进行至框208。

在框208处，控制器34（或另一控制器）实施在框206中确定的最佳驾驶简档。为此，控制器34改变自主车辆10的控制和计划系统（即，控制系统100）的默认控制和计划参数，以实施与在框206中确定的最佳驾驶简档一致的驾驶计划。如上文所讨论的，控制系统100配置成控制自主车辆10的操作和移动。通过改变默认控制和计划参数，将控制系统100专门编程为根据最佳驾驶简档来控制自主车辆10的操作和移动，以使车辆乘客的舒适感最大化。在执行框208之后，方法200继续进行至框210。

在框210处，控制系统100（其包括控制器34）命令自主车辆10在受控环境（例如，跑道）中执行驾驶计划（其对应于最佳驾驶简档）以测试最佳驾驶简档的舒适性。为此，控制系统100命令自主车辆10在控制器环境（例如，跑道或试验场）中模拟交通场景的随机座位，并且同时，自主车辆10的乘客（用电动台（electric table）或其它合适的输入装置）对自主车辆10与良好的人类驾驶相比如何执行进行评级（或对其进行排名）。换言之，自主车辆10的乘客使用电子平板电脑（包括电位计）对驾驶计划的舒适性（即，舒适感）进行评级（或对其进行排名），该驾驶计划对应于最佳驾驶计划（并且相应地对最佳驾驶计划起作用）。换言之，控制器34接收来自自主车辆10的对由自主车辆10执行的驾驶计划进行评级的车辆乘客的舒适性等级。因此，控制器34接收来自自主车辆10的乘客的舒适性（即，舒适感）等级并且存储该舒适性（即，舒适感）等级。在框210之后，方法200继续进行至框212。

在框212处，控制器34将从乘客接收到的舒适性（即，舒适感）等级与预定阈值进行比较。在这个时刻处，控制器34可以确定从车辆乘客接收到的舒适性等级小于预定阈值。响应于确定从车辆乘客接收到的舒适性等级小于预定阈值，方法200返回至框204，其中，控制器34再次基于收集到的数据来机器学习人类驾驶员如何对不同道路和交通状况做出反应。然而，控制器34可以替代地确定从车辆乘客接收到的舒适性等级等于或大于预定阈值。响应于确定从车辆乘客接收到的舒适性等级等于或大于预定阈值，控制器34继续进行至框214。

在框214处，方法200结束（例如，不再进行机器学习）。然而，在结束方法200之前，控制器34可以命令自主车辆10在常规驾驶条件下执行对应于最佳驾驶简档的驾驶计划。因此，由购车者驾驶的自主车辆10将执行对应于最佳驾驶简档的驾驶计划，以使驾驶舒适感最大化。

图3图示了方法200的示例300。在该示例300中，控制器34收集关于人类驾驶员如何识别其它车辆超车场景和非超车场景并对其做出反应的数据。该示例300从框302开始。在框302处，控制器34收集关于车辆10的人类驾驶员在另一车辆OV超车时如何做出反应的数据以及关于在车辆10的人类驾驶另一车辆OV没有超车时如何做出反应的数据。该交通场景在本文中被称为超车场景。在该超车场景中，车辆10正在第一车道PL上驾驶，并且另一车辆OV正在紧邻第一车道FL的第二车道SL上移动。此外，在此超车场景中，车辆10可以被称为第一车辆或主车辆，并且另一车辆OV可以被称为第二车辆和/或远程车辆。划分的虚线DL将第一车道FL与第二车道SL隔开。在超车场景期间，另一车辆OV从第二车道SL朝向第一车道FL移动，直到另一车辆OV正在第一车道上且在车辆10的前面移动为止。在框302之后，控制器34执行框304。如上文所讨论的，在框304处，传感器系统28感测适合的数据，诸如：从自主车辆10到另一车辆OV的绝对距离；方向角（定义为车辆10相对于另一车辆OV的角）；行动者相对速度（定义为车辆10与另一车辆OV之间的速度差）；行动者相对加速度（定义为车辆10与另一车辆之间的加速度差）；以及行动者取向（定义为车辆10的偏航率）。然后，该方法继续进行至框304。在框304处，为了感测从车辆10到另一车辆OV的绝对距离，传感器系统28感测可以使用感测装置40a至40n中的一者或多者，诸如，一个或多个激光雷达。为了感测方向角，传感器系统28可以使用感测装置40a至40n中的一者或多者，诸如，一个或多个激光雷达和/或雷达。为了感测行动者相对速度，传感器系统28可以使用感测装置40a至40n中的一者或多者，诸如，一个或多个里程表和/或激光雷达或雷达。为了感测行动者相对加速度，传感器系统28可以使用感测装置40a至40n中的一者或多者，诸如，加速度计和/或里程表以及时钟。为了感测行动者取向（即，车辆10的偏航率），传感器系统28可以使用一个或多个陀螺仪。控制器34与传感器系统28电子通信。因此，在框304处，控制器34被编程为从传感器系统28接收输入数据，该输入数据指示绝对距离、方向角、行动者相对速度、行动者相对加速度和/或行动者取向。在框304中所示的曲线图中，时间零点是在框302中被标记为CI的超车事件发生的时刻。框304和304是框202（图2）的示例。在框304之后，控制器34执行框306。

在框306处，控制器34执行机器学习技术（诸如，上述框204），以在超车场景和非超车场景期间学习框304的输入数据与由专业驾驶员执行的人类驾驶员动作之间的关联性。为此，在框306处，控制器34在超车场景和非超车场景期间感测和学习车辆10的纵向加速度（基于来自感测系统28的输入）和横向加速度（基于来自传感器系统28的输入）。传感器系统28可以使用一个或多个感测装置40a至40n（诸如，一个或多个陀螺仪和/或加速度计）来感测车辆的纵向加速度和横向加速度。在框306处，控制器34学习以下各者之间的关联性：（a）从车辆10到另一车辆OV的绝对距离；方向角；行动者相对速度；行动者相对加速度；和行动者取向；以及（b）车辆10的纵向加速度和横向加速度。在框306之后，控制器34执行框308。

在框308处，控制器34对人类驾驶员对交通状况的反应（即，超车场景或非超车场景）进行建模，这是上述框206的示例。在框308之后，控制器34执行框310。在框310处，控制器34将模型集成到车辆10的控制和运动计划算法。框310是上述框208的示例。

图4图示了左转弯场景，在左转弯场景中，车辆10在十字路口IT处向左转弯，而另一车辆OV正在横穿十字路口。在该左转弯场景中，在方法200（图2）的框206处，控制器34选择最佳驾驶简档。为此，感测系统28收集关于来自向左转弯的车辆10的乘客的舒适性/舒适感反馈的数据。如上文所讨论的，该乘客可以具有用于对人类驾驶风格的舒适性/舒适感进行评级的平板电脑（其可以包括电位计）。在该左转弯场景中，除了其它之外，感测系统28在整个左转弯场景期间感测横向加速度、纵向加速度、纵向加加速度和横向加加速度。控制器34然后从传感器系统28接收并且存储感测到的信息，并且在整个左转弯场景期间将感测到的信息（例如，横向加速度、纵向加速度、横向加加速度和纵向加加速度）与舒适性/舒适感反馈关联。例如，当车辆10的乘客提供最高可能的舒适性/舒适感等级时，控制器34关联关于驾驶员人类简档的感测到的信息。然后，当自主车辆使用控制和计划系统（即，控制系统100）的默认控制和计划参数确定这些参数（例如，横向加速度、纵向加速度、横向加加速度和纵向加加速度）之差从而在左转弯场景中操作时，控制器34将关于人类驾驶风格的感测到的信息与自主驾驶数据（例如，横向加速度、纵向加速度、横向加加速度和纵向加加速度）进行比较。这些差示出为了增加自主车辆舒适感驾驶风格需要改变哪些方面，并且在自主车辆10的计划阶段下将其转换成可执行动作。

图5是用于使用自主车辆和环境数据来选择最舒适的运动计划的过程400的流程图。过程400从框402开始。在框402处，感测系统28使用一个或多个感测装置40a至40n（诸如，最佳相机或热成像相机）感测外部环境数据。控制器34基于来自感测系统28的输入来接收、收集并存储感测到的环境数据。环境数据可以包括但不限于位于车辆10外部的物体（诸如，另一车辆（即，第二车辆或远程车辆）和/或行人）的位置和速度。然后，方法400继续至框404。

在框404处，控制器34过滤与乘客的满意度相关的数据。该过滤步骤需要过滤相关数据的噪声，并且排除与乘客的满意度（即，舒适性/舒适感）无关的数据。在过滤环境数据之后，过程400以框406和408继续进行。

在框406处，控制器34接收默认自主车辆驾驶风格数据。在框408处，控制器34馈送经过滤的环境数据和默认自主车辆驾驶风格数据，以设计预测乘客满意度的模型。然后，在框410处，使用该模型来找到车辆10的最舒适的运动计划。可以使用随机森林学习技术来找到最舒适的运动计划。

图6是用于选择最佳驾驶简档（参见图2的框204和206）的随机森林建模技术方法500的流程图。方法500从需要输入集合的框502处开始。换言之，控制器34从例如感测系统28接收输入数据。接收数据至少包括环境数据和车辆动态数据。环境数据包括：识别相关目标和关于相关目标的信息。相关目标包括：在与车辆10相距预定半径（例如，距离）内的物体（诸如，其它车辆OV）。一旦识别到相关目标，感测系统28就感测关于相关目标的信息，诸如，相关目标正在移动还是并未移动；从车辆10到相关目标的距离；相关目标的速度；相关车辆10的车辆类型；相关车辆是否曾移动过；相关物体（例如，车辆）的加速度；危险警告车灯是否亮起以及车辆制动灯是否亮起。在框502处，控制器34接收关于车辆10的车辆动态数据，车辆动态数据可以包括横向加速度、横向加加速度、纵向加速度和纵向加加速度。在框502之后，方法500继续进行至框504，其为方法200（图2）的机器学习框204的示例。在框504处，控制器34执行随机森林学习技术来选择最佳驾驶简档。随机森林学习技术基于在框503处收集到的关于人类驾驶风格的舒适性/舒适感的乘客反馈来创建与乘客不舒适有关的多个决策树。在框504处，控制器34使用随机森林学习技术来识别在驾驶期间导致不舒适的原因。例如，随机森林学习技术考虑参数与阈值，并且将这些参数与阈值进行比较。随机森林学习技术将例如车辆10的向前加速度和纵向加加速度与相应阈值进行比较。然后，方法继续进行至框506。在框506处，控制器34模仿分类器的性能（随机森林输出）。为此，控制器34可以评估接收器操作特性曲线。

虽然已经参考所图示的实施例详细描述了本公开的各个方面，但本领域的技术人员应认识到，可以在不脱离本公开的范围的情况下对其做出许多修改。本公开不限于本文中所公开的精确构造和组成；从前述描述显而易见的任何和所有修改、改变和变型都在如所附权利要求书中限定的本公开的范围内。此外，本概念明确地包括前述元件和特征的任何和所有组合以及子组合。

Claims

1.一种用于控制车辆的方法，所述方法包括：

基于所述最佳驾驶简档来创建驾驶计划；

2.根据权利要求1所述的方法，所述方法还包括：将从所述车辆的所述乘客接收到的所述舒适性等级与预定阈值进行比较。

3.根据权利要求2所述的方法，所述方法还包括：

4.根据权利要求2所述的方法，所述方法还包括：

5.根据权利要求3所述的方法，其中，收集关于人类驾驶风格的数据包括：

6.根据权利要求5所述的方法，其中，关于人类驾驶风格的所述数据是与日常人类驾驶有关的记录。

7.根据权利要求6所述的方法，其中，所述机器学习选自包括深度强化学习、随机森林学习和深度神经网络学习的组。

8.根据权利要求7所述的方法，其中，选择所述最佳驾驶简档包括：调查由所述机器学习输出的所述多个人类驾驶风格简档，以选择所述最佳驾驶简档。

9.根据权利要求8所述的方法，所述方法还包括：改变所述车辆的控制和计划系统的参数以实施所述驾驶计划。

10.根据权利要求9所述的方法，其中，命令所述车辆在所述受控环境中执行所述驾驶计划包括：在所述受控环境中模拟交通状况的随机集合，并且所述受控环境是跑道。

11.根据权利要求1所述的方法，其中：

所述不同交通场景中的一个是超车场景；

在所述超车场景中：

所述车辆是第一车辆；

所述第一车辆正在第一车道上移动；

第二车辆正在紧邻所述第一车道的第二车道上移动；

划分的虚线将所述第一车道与所述第二车道隔开；以及

12.根据权利要求11所述的方法，其中，在所述人类驾驶员驾驶所述车辆时收集关于人类驾驶风格的数据包括：收集关于所述人类驾驶员在所述超车场景期间驾驶时的数据，其包括：使用传感器系统，感测：

从所述第一车辆到所述第二车辆的绝对距离；

13.根据权利要求12所述的方法，其中，所述控制器从所述传感器系统接收指示绝对距离、所述方向角、所述行动者相对速度、所述行动者相对加速度和所述行动者取向的输入数据。

14.根据权利要求13所述的方法，其中，机器学习所述人类驾驶员如何在所述超车场景中做出反应包括：

使用所述传感器系统在所述超车场景期间感测所述第一车辆的横向加速度和所述第一车辆的纵向加速度；以及

学习以下各者之间的关联性：(a)从所述第一车辆到所述第二车辆的所述绝对距离；方向角；所述行动者相对速度；所述行动者相对加速度；和所述行动者取向；以及(b)所述第一车辆的所述纵向加速度和所述横向加速度。

15.一种自主车辆，所述自主车辆包括：

选择所述多个人类驾驶风格简档中的最佳驾驶简档，其中，基于从车辆乘客接收到的输入来选择所述最佳驾驶简档，其中，所述车辆乘客提供关于所述多个人类驾驶风格的舒适性的反馈；

基于所述最佳驾驶简档来创建驾驶计划；

命令所述自主车辆在受控环境中执行所述驾驶计划；以及

16.根据权利要求15所述的自主车辆，其中，所述控制器配置成将从所述车辆乘客接收到的所述舒适性等级与预定阈值进行比较。

17.根据权利要求16所述的自主车辆，其中，所述控制器配置成：

18.根据权利要求16所述的自主车辆，其中，所述控制器配置成：

19.根据权利要求17所述的自主车辆，其中，所述控制器配置成：

20.根据权利要求19所述的自主车辆，其中，关于人类驾驶风格的收集到的数据是与日常人类驾驶有关的记录。