CN110348278B

CN110348278B - 用于自主驾驶的基于视觉的样本高效的强化学习框架

Info

Publication number: CN110348278B
Application number: CN201910143542.7A
Authority: CN
Inventors: S-H·基亚恩格; 刘明昌
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2018-04-02
Filing date: 2019-02-27
Publication date: 2023-08-11
Anticipated expiration: 2039-02-27
Also published as: EP3564861A1; CN110348278A; JP2019182400A; KR102318027B1; KR20190119510A; US20190302785A1; EP3564861B1; US11106211B2

Abstract

本发明公开了用于自主驾驶的基于视觉的样本高效的强化学习框架。框架基于用于自主驾驶的引导策略搜索结合了视觉和样本高效的强化学习。控制器从视觉中提取环境信息并且被训练以使用强化学习进行驾驶。

Description

用于自主驾驶的基于视觉的样本高效的强化学习框架

技术领域

本发明涉及自主驾驶。更具体而言，本发明涉及基于视觉的自主驾驶。

背景技术

传统上，自主驾驶基于规则。一些研究使用基于Q学习或策略梯度的强化学习算法来实现自主驾驶。但是，基于规则的方法不能很好地扩展，而基于Q学习或策略梯度的强化学习方法不是样本高效的，并且由于需要探索大的状态空间而解决起来非常耗时。

发明内容

一种框架基于用于自主驾驶的引导策略搜索结合了视觉和样本高效的强化学习。控制器从视觉中提取环境信息并且被训练以使用强化学习进行驾驶。

在一个方面，一种方法包括利用视觉模型训练用于自主驾驶的强化学习控制器，以及利用该视觉模型部署用于自主驾驶的强化学习控制器。训练用于自主驾驶的强化学习控制器利用第一方面来提供关于在做出决定时要探索的选项的引导，以及利用第二方面来学习如何基于来自视觉模型的视觉信息做出反应。第一方面实现引导策略搜索，该引导策略搜索针对任务的特定实例迭代地优化一组本地策略，并使用本地策略来训练可跨任务实例使用的通用全局策略并限制搜索空间。在一些实施例中，部署用于自主驾驶的强化学习控制器利用第二方面来学习如何基于来自视觉模型的视觉信息做出反应。通过使用一个或多个车辆相机获取的图像和/或视频来训练视觉模型。训练用于自主驾驶的强化学习控制器利用包括完全或部分观察到的状态的标记图像。该方法还包括通过向驱动机构、制动机构和加速机构中的至少一个发送信号，使用强化学习控制器来自主地驾驶车辆。

在另一方面，一种系统包括：非瞬态存储器，用于存储应用，该应用用于：利用视觉模型训练用于自主驾驶的强化学习控制器，并利用该视觉模型利用用于自主驾驶的强化学习控制器；以及处理器，耦合到存储器，该处理器被配置用于处理应用。训练用于自主驾驶的强化学习控制器利用第一方面来提供关于在做出决定时要探索的选项的引导，以及利用第二方面来学习如何基于来自视觉模型的视觉信息做出反应。第一方面实现引导策略搜索，该引导策略搜索针对任务的特定实例迭代地优化一组本地策略，并使用本地策略来训练可跨任务实例使用的通用全局策略并限制搜索空间。利用用于自主驾驶的强化学习控制器利用第二方面来学习如何基于来自视觉模型的视觉信息做出反应。通过使用一个或多个车辆相机获取的图像和/或视频来训练视觉模型。训练用于自主驾驶的强化学习控制器利用包括完全或部分观察到的状态的标记图像。该强化学习控制器还被配置为通过向驱动机构、制动机构和加速机构中的至少一个发送信号来自主地驾驶车辆。

在又一方面，一种车辆包括：一个或多个相机，被配置用于获取视觉信息；以及一个或多个计算设备，被配置用于：利用包括视觉信息的视觉模型训练用于自主驾驶的强化学习控制器，并利用包括视觉信息的视觉模型利用用于自主驾驶的强化学习控制器。训练用于自主驾驶的强化学习控制器利用第一方面来提供关于在做出决定时探索的选项的引导，以及利用第二方面来学习如何基于来自视觉模型的视觉信息做出反应。第一方面实现引导策略搜索，该引导策略搜索针对任务的特定实例迭代地优化一组本地策略，并使用本地策略来训练可跨任务实例使用的通用全局策略并限制搜索空间。利用用于自主驾驶的强化学习控制器利用第二方面来学习如何基于来自视觉模型的视觉信息做出反应。训练用于自主驾驶的强化学习控制器利用包括完全或部分观察到的状态的标记图像。该强化学习控制器还被配置为通过向驱动机构、制动机构和加速机构中的至少一个发送信号来自主地驾驶车辆。

附图说明

图1图示了根据一些实施例的实现在训练期间用于自主驾驶的基于视觉的强化学习框架的图。

图2图示了根据一些实施例的实现在部署期间用于自主驾驶的基于视觉的强化学习框架的图。

图3图示了根据一些实施例的实现用于自主驾驶的基于视觉的强化学习框架的方法的流程图。

图4图示了根据一些实施例的被配置为实现基于视觉的强化学习框架的示例性计算设备的框图。

图5图示了根据一些实施例的被配置用于实现基于视觉的强化学习框架的车辆的图。

具体实施方式

本文描述了基于用于自主驾驶的引导策略搜索结合视觉(例如，图像)和样本高效的强化学习的框架。控制器从视觉中提取环境信息并且被训练以使用强化学习进行驾驶。其动机是成为样本高效的，以节省时间并避免使机器人疲劳或受损。该框架基于用于自主驾驶的引导策略搜索结合视觉和强化学习。引导策略搜索将有希望(promising)区域内的搜索空间限制为样本高效的。

使用一个或多个图像/视频处理算法处理诸如使用相机获取的信息的视觉输入，然后基于处理算法，能够进行学习。强化学习类似于人类如何通过使用试错(trial anderror)奖励正面行为和惩罚负面行为来学习。此外，通过利用神经网络的深度学习，强化学习从没有人工设计特征的视觉输入中学习。引导策略搜索通过针对任务的特定实例迭代地优化一组本地策略来辅助学习，并使用策略来训练可跨任务实例使用的通用全局策略。

图1图示了根据一些实施例的实现在训练期间用于自主驾驶的基于视觉的强化学习框架的图。车辆相机100捕获用于训练和生长视觉模型102的图像/视频。视觉模型102用于检测、识别和分类所捕获的图像/视频内的物体，诸如人、树、其它车辆和任何其它物体/驾驶状态。在一些实施例中，使用LIDAR和/或三维内容获取来捕获和存储视觉信息。在一些实施例中，捕获音频并将其用于辅助训练视觉模型。取决于实现，视觉模型能够包括图像、视频和/或音频、计算/数字信息、深度图信息、分类信息、标签信息、任何其它信息和/或其任何组合。来自视觉模型102的输出进入强化学习控制器104，强化学习控制器104也接收标记图像106，标记图像106包括完全观察到的图像的状态。在一些实施例中，标记图像106包括部分观察到的图像的状态。视觉模型输出能够以任何格式并且包括任何类型的输出，诸如提取出的用于驾驶的状态。标记图像106能够包括计算/数字信息、深度图信息、分类信息、标签信息、任何其它信息和/或其任何组合。强化学习控制器104利用标记图像106和视觉模型输出来强化学习。强化学习控制器104在训练时利用两个方面。第一方面，例如,教师方面，提供在做出决定时诸如要探索的有希望的搜索空间的引导。在一些实施例中，强化学习包括实现引导策略搜索，该引导策略搜索通过针对任务的特定实例迭代地优化一组本地策略来辅助学习，并使用策略来训练可跨任务实例使用的通用全局策略并将有希望区域内的搜索空间限制为样本高效的。例如，当接近物体(包括击中物体)时不是利用做什么的所有选项，而是利用引导使得排除包括加速和击中物体的选项，并且关注更可能的选项，诸如制动、减速和避免物体。第二方面，例如，学习方面，基于视觉信息、采取的选项(例如，停止、加速、转弯)以及选项的结果(例如，击中物体-负面结果，避免物体–正面结果)来学习如何驾驶/反应。强化学习控制器104用于通过向车辆控制器提供信号(诸如触发制动、加速、转向、发信号通知和/或任何其它车辆控制特征)来自主地控制车辆108。学习能够使用模拟/模拟器和/或经由实际驾驶来进行。

图2图示了根据一些实施例的实现在部署期间用于自主驾驶的基于视觉的强化学习框架的图。车辆相机100捕获用于训练和生长视觉模型102的图像/视频。视觉模型102用于检测、识别和分类所捕获的图像/视频内的物体，诸如人、树、其它车辆和任何其它物体/驾驶状态。在一些实施例中，使用光检测和测距(LIDAR)和/或三维内容获取来捕获和存储视觉信息。在一些实施例中，捕获音频并将其用于辅助训练视觉模型。取决于实现，视觉模型能够包括图像、视频和/或音频、计算/数字信息、深度图信息、分类信息、标签信息、任何其它信息和/或其任何组合。来自视觉模型102的输出进入强化学习控制器104。视觉模型输出能够以任何格式并且包括任何类型的输出，诸如提取出的用于驾驶的状态。强化学习控制器104利用先前的训练和视觉模型输出。在一些实施例中，强化学习控制器104在部署期间继续学习。强化学习控制器104用于通过向车辆控制器提供信号(诸如触发制动、加速、转向、发信号通知和/或任何其它车辆控制特征)来自主地控制车辆108。

在一些实施例中，视觉模型102和强化学习控制器104被组合在单个单元中。

图3图示了根据一些实施例的实现用于自主训练的基于视觉的强化学习框架的方法的流程图。在步骤300中，训练基于视觉的强化学习控制器。在一些实施例中，在基于视觉的强化学习控制器的训练之前或期间训练视觉模型。如上所述，使用视觉模型和标记图像训练强化学习控制器，并且强化学习控制器(教师和学习)的两个方面都用于训练。在步骤302中，部署基于视觉的强化学习控制器。如上所述，在部署期间，强化学习控制器利用先前的训练和视觉模型输出。在一些实施例中，强化学习控制器在部署期间继续学习。在一些实施例中，实现更少或附加的步骤。在一些实施例中，修改步骤的顺序。

图4图示了根据一些实施例的被配置为实现基于视觉的强化学习框架的示例性计算设备的框图。计算设备400能够用于获取、存储、计算、处理、传送和/或显示诸如图像和视频之类的信息。计算设备400能够实现任何基于视觉的强化学习框架方面。通常，适合于实现计算设备400的硬件结构包括网络接口402、存储器404、处理器406、(一个或多个)I/O设备408、总线410和存储设备412。处理器的选择不重要，只要选择具有足够速度的合适处理器即可。存储器404能够是本领域中已知的任何通用计算机存储器。存储设备412能够包括硬盘驱动器、CDROM、CDRW、DVD、DVDRW、高清晰度盘/驱动器、超高清驱动器、闪存卡或任何其它存储设备。计算设备400能够包括一个或多个网络接口402。网络接口的示例包括连接到以太网或其它类型的LAN的网卡。(一个或多个)I/O设备408能够包括以下中的一个或多个：键盘、鼠标、监视器、屏幕、打印机、调制解调器、触摸屏、按钮接口和其它设备。用于实现基于视觉的强化学习框架的(一个或多个)基于视觉的强化学习框架应用430可能存储在存储设备412和存储器404中，并且如应用通常被处理的那样进行处理。图4中示出的更多或更少的部件能够被包括在计算设备400中。在一些实施例中，包括基于视觉的强化学习框架硬件420。虽然图4中的计算设备400包括用于基于视觉的强化学习框架的应用430和硬件420，但是基于视觉的强化学习框架能够用硬件、固件、软件或其任何组合在计算设备上实现。例如，在一些实施例中，基于视觉的强化学习框架应用430被编程在存储器中并使用处理器执行。在另一个示例中，在一些实施例中，基于视觉的强化学习框架硬件420是编程的硬件逻辑，包括专门被设计用于实现基于视觉的强化学习框架的门。

在一些实施例中，(一个或多个)基于视觉的强化学习框架应用430包括若干应用和/或模块。在一些实施例中，模块也包括一个或多个子模块。在一些实施例中，能够包括更少或附加的模块。

合适的计算设备的示例包括车辆计算机、嵌入式计算机、个人计算机、膝上型计算机、计算机工作站、服务器、大型计算机、手持式计算机、个人数字助理、蜂窝/移动电话、智能电器、游戏控制台、数码相机、数码摄像机、照相电话、智能电话、便携式音乐播放器、平板计算机、移动设备、视频播放器、视频盘刻录机/播放器(例如，DVD刻录机/播放器、高清晰度盘刻录机/播放器、超高清盘刻录机/播放器)、电视、家庭娱乐系统、增强现实设备、虚拟现实设备、智能珠宝(例如，智能手表)或任何其它合适的计算设备。

图5图示了根据一些实施例的被配置用于实现基于视觉的强化学习框架的车辆的图。车辆500包括一个或多个计算设备400，其被配置为利用一个或多个相机设备502来实现基于视觉的强化学习框架，该一个或多个相机设备502位于车辆上的任何位置，诸如在顶上，在前面、在侧面、在后面或在下面。相机502能够是任何类型的相机，诸如360度相机、视频相机或旋转相机。附加设备能够用于实现基于视觉的强化学习框架。虽然示出了汽车，但是车辆能够是任何类型的自主或部分自主车辆，诸如汽车、卡车、飞机、自行车、摩托车或船。

本文描述的框架能够与硬件和软件一起使用，包括能够足够快地做出决定以避免冲突和/或任何其它驾驶情况的视觉输入。该框架也能够与诸如赛车游戏之类的游戏一起使用。

为了利用本文描述的基于视觉的强化学习框架，车辆包括用于获取图像/视频的诸如数码相机/摄像机的设备，这些图像/视频然后被处理以进行学习和自主地驾驶车辆。基于视觉的强化学习框架能够在用户帮助下实现，或者在没有用户参与的情况下自动实现。

在操作中，基于视觉的强化学习框架基于用于自主驾驶的引导策略搜索结合了视觉和样本高效的强化学习。控制器从视觉中提取环境信息并且被训练以使用强化学习进行驾驶。通过利用强化学习而不是基于规则的学习，该框架能够更好地扩展，因为自动驾驶需要数百万个不同场景的数百万个决策。此外，基于视觉的强化学习框架也利用引导策略搜索，该引导策略搜索将搜索引导到更有希望的区域，从而缩短搜索时间并更加适当地集中搜索，从而实现高效的学习，同时在自动驾驶期间做出实时决策。

用于自主驾驶的基于视觉的样本高效的强化学习框架的一些实施例

1、一种方法，包括：

利用视觉模型训练用于自主驾驶的强化学习控制器；以及

利用视觉模型部署用于自主驾驶的强化学习控制器。

2、如条款1所述的方法，其中训练用于自主驾驶的强化学习控制器利用第一方面来提供关于在做出决定时要探索的选项的引导，以及利用第二方面来学习如何基于来自视觉模型的视觉信息做出反应。

3、如条款2所述的方法，其中第一方面实现引导策略搜索，所述引导策略搜索针对任务的特定实例迭代地优化一组本地策略，并使用本地策略来训练可跨任务实例使用的通用全局策略并限制搜索空间。

4、如条款2所述的方法，其中部署用于自主驾驶的强化学习控制器利用第二方面来学习如何基于来自视觉模型的视觉信息做出反应。

5、如条款1所述的方法，其中通过使用一个或多个车辆相机获取的图像和/或视频来训练视觉模型。

6、如条款1所述的方法，其中训练用于自主驾驶的强化学习控制器利用包括完全或部分观察到的状态的标记图像。

7、如条款1所述的方法，还包括通过向驱动机构、制动机构和加速机构中的至少一者发送信号，使用强化学习控制器来自主地驾驶车辆。

8、一种系统，包括：

非瞬态存储器，用于存储应用，所述应用用于：

利用视觉模型训练用于自主驾驶的强化学习控制器；以及

利用视觉模型利用用于自主驾驶的强化学习控制器；以及

处理器，耦合到所述存储器，所述处理器被配置用于处理所述应用。

9、如条款8所述的系统，其中训练用于自主驾驶的强化学习控制器利用第一方面来提供关于在做出决定时要探索的选项的引导，以及利用第二方面来学习如何基于来自视觉模型的视觉信息做出反应。

10、如条款9所述的系统，其中第一方面实现引导策略搜索，所述引导策略搜索针对任务的特定实例迭代地优化一组本地策略，并使用本地策略来训练可跨任务实例使用的通用全局策略并限制搜索空间。

11、如条款9所述的系统，其中利用用于自主驾驶的强化学习控制器利用第二方面来学习如何基于来自视觉模型的视觉信息做出反应。

12、如条款8所述的系统，其中通过使用一个或多个车辆相机获取的图像和/或视频来训练视觉模型。

13、如条款8所述的系统，其中训练用于自主驾驶的强化学习控制器利用包括完全或部分观察到的状态的标记图像。

14、如条款8所述的系统，其中强化学习控制器还被配置为通过向驱动机构、制动机构和加速机构中的至少一者发送信号来自主地驾驶车辆。

15、一种车辆，包括：

一个或多个相机，被配置用于获取视觉信息；以及

一个或多个计算设备，被配置用于：

利用包括视觉信息的视觉模型训练用于自主驾驶的强化学习控制器；以及

利用包括视觉信息的视觉模型利用用于自主驾驶的强化学习控制器。

16、如条款15所述的车辆，其中训练用于自主驾驶的强化学习控制器利用第一方面来提供关于在做出决定时要探索的选项的引导，以及利用第二方面来学习如何基于来自视觉模型的视觉信息做出反应。

17、如条款16所述的车辆，其中第一方面实现引导策略搜索，所述引导策略搜索针对任务的特定实例迭代地优化一组本地策略，并使用本地策略来训练可跨任务实例使用的通用全局策略并限制搜索空间。

18、如条款16所述的车辆，其中利用用于自主驾驶的强化学习控制器利用第二方面来学习如何基于来自视觉模型的视觉信息做出反应。

19、如条款15所述的车辆，其中训练用于自主驾驶的强化学习控制器利用包括完全或部分观察到的状态的标记图像。

20、如条款15所述的车辆，其中强化学习控制器还被配置为通过向驱动机构、制动机构和加速机构中的至少一者发送信号来自主地驾驶车辆。

已经根据结合细节的特定实施例描述了本发明，以便于理解本发明的构造和操作的原理。本文对特定实施例及其细节的这种引用并非旨在限制所附权利要求的范围。对于本领域技术人员来说显而易见的是，在不脱离由权利要求限定的本发明的精神和范围的情况下，可以在为说明而选择的实施例中进行其它各种修改。

Claims

1.一种方法，包括：

利用视觉模型训练用于自主驾驶的强化学习控制器；以及

利用视觉模型部署用于自主驾驶的强化学习控制器，

其中训练用于自主驾驶的强化学习控制器利用第一方面来提供关于在做出决定时要探索的选项的引导，以及利用第二方面来学习如何基于来自视觉模型的视觉信息做出反应，并且

其中第一方面实现引导策略搜索，所述引导策略搜索针对任务的特定实例迭代地优化一组本地策略，并使用本地策略来训练能够跨任务实例使用的通用全局策略并限制搜索空间，包括从全部选项集中移除特定选项，以生成关注比所述特定选项可能性更大的选项的有限选项集，其中移除所述特定选项包括在接近物体时排除加速和击中物体。

2.如权利要求1所述的方法，其中部署用于自主驾驶的强化学习控制器利用第二方面来学习如何基于来自视觉模型的视觉信息做出反应。

3.如权利要求1所述的方法，其中通过使用一个或多个车辆相机获取的图像和/或视频来训练视觉模型。

4.如权利要求1所述的方法，其中训练用于自主驾驶的强化学习控制器利用包括完全或部分观察到的状态的标记图像。

5.如权利要求1所述的方法，还包括通过向驱动机构、制动机构和加速机构中的至少一者发送信号，使用强化学习控制器来自主地驾驶车辆。

6.一种系统，包括：

非瞬态存储器，用于存储应用，所述应用用于：

利用视觉模型训练用于自主驾驶的强化学习控制器；以及

利用视觉模型利用用于自主驾驶的强化学习控制器；以及处理器，耦合到所述存储器，所述处理器被配置用于处理所述应用，

7.如权利要求6所述的系统，其中利用用于自主驾驶的强化学习控制器利用第二方面来学习如何基于来自视觉模型的视觉信息做出反应。

8.如权利要求6所述的系统，其中通过使用一个或多个车辆相机获取的图像和/或视频来训练视觉模型。

9.如权利要求6所述的系统，其中训练用于自主驾驶的强化学习控制器利用包括完全或部分观察到的状态的标记图像。

10.如权利要求6所述的系统，其中强化学习控制器还被配置为通过向驱动机构、制动机构和加速机构中的至少一者发送信号来自主地驾驶车辆。

11.一种车辆，包括：

一个或多个相机，被配置用于获取视觉信息；以及

一个或多个计算设备，被配置用于：

利用包括视觉信息的视觉模型利用用于自主驾驶的强化学习控制器，

12.如权利要求11所述的车辆，其中利用用于自主驾驶的强化学习控制器利用第二方面来学习如何基于来自视觉模型的视觉信息做出反应。

13.如权利要求11所述的车辆，其中训练用于自主驾驶的强化学习控制器利用包括完全或部分观察到的状态的标记图像。

14.如权利要求11所述的车辆，其中强化学习控制器还被配置为通过向驱动机构、制动机构和加速机构中的至少一者发送信号来自主地驾驶车辆。