CN110348278B - 用于自主驾驶的基于视觉的样本高效的强化学习框架 - Google Patents
用于自主驾驶的基于视觉的样本高效的强化学习框架 Download PDFInfo
- Publication number
- CN110348278B CN110348278B CN201910143542.7A CN201910143542A CN110348278B CN 110348278 B CN110348278 B CN 110348278B CN 201910143542 A CN201910143542 A CN 201910143542A CN 110348278 B CN110348278 B CN 110348278B
- Authority
- CN
- China
- Prior art keywords
- reinforcement learning
- autonomous driving
- learning controller
- visual
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000002787 reinforcement Effects 0.000 title claims abstract description 117
- 230000000007 visual effect Effects 0.000 claims abstract description 82
- 238000012549 training Methods 0.000 claims description 39
- 238000000034 method Methods 0.000 claims description 22
- 230000001133 acceleration Effects 0.000 claims description 13
- 239000003550 marker Substances 0.000 claims description 13
- 230000007613 environmental effect Effects 0.000 abstract description 4
- 239000000284 extract Substances 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 8
- 238000012545 processing Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 230000011664 signaling Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008450 motivation Effects 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W30/00—Purposes of road vehicle drive control systems not related to the control of a particular sub-unit, e.g. of systems using conjoint control of vehicle sub-units
- B60W30/14—Adaptive cruise control
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0212—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
- G05D1/0221—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W40/00—Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models
- B60W40/02—Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models related to ambient conditions
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0231—Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means
- G05D1/0246—Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using a video camera in combination with image processing means
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0231—Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means
- G05D1/0246—Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using a video camera in combination with image processing means
- G05D1/0248—Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using a video camera in combination with image processing means in combination with a laser
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
- G06V20/58—Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W2420/00—Indexing codes relating to the type of sensors based on the principle of their operation
- B60W2420/40—Photo, light or radio wave sensitive means, e.g. infrared sensors
- B60W2420/403—Image sensing, e.g. optical camera
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
- G06N5/045—Explanation of inference; Explainable artificial intelligence [XAI]; Interpretable artificial intelligence
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Automation & Control Theory (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Aviation & Aerospace Engineering (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Electromagnetism (AREA)
- Transportation (AREA)
- Mechanical Engineering (AREA)
- Optics & Photonics (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
- Traffic Control Systems (AREA)
- Control Of Driving Devices And Active Controlling Of Vehicle (AREA)
Abstract
本发明公开了用于自主驾驶的基于视觉的样本高效的强化学习框架。框架基于用于自主驾驶的引导策略搜索结合了视觉和样本高效的强化学习。控制器从视觉中提取环境信息并且被训练以使用强化学习进行驾驶。
Description
技术领域
本发明涉及自主驾驶。更具体而言,本发明涉及基于视觉的自主驾驶。
背景技术
传统上,自主驾驶基于规则。一些研究使用基于Q学习或策略梯度的强化学习算法来实现自主驾驶。但是,基于规则的方法不能很好地扩展,而基于Q学习或策略梯度的强化学习方法不是样本高效的,并且由于需要探索大的状态空间而解决起来非常耗时。
发明内容
一种框架基于用于自主驾驶的引导策略搜索结合了视觉和样本高效的强化学习。控制器从视觉中提取环境信息并且被训练以使用强化学习进行驾驶。
在一个方面,一种方法包括利用视觉模型训练用于自主驾驶的强化学习控制器,以及利用该视觉模型部署用于自主驾驶的强化学习控制器。训练用于自主驾驶的强化学习控制器利用第一方面来提供关于在做出决定时要探索的选项的引导,以及利用第二方面来学习如何基于来自视觉模型的视觉信息做出反应。第一方面实现引导策略搜索,该引导策略搜索针对任务的特定实例迭代地优化一组本地策略,并使用本地策略来训练可跨任务实例使用的通用全局策略并限制搜索空间。在一些实施例中,部署用于自主驾驶的强化学习控制器利用第二方面来学习如何基于来自视觉模型的视觉信息做出反应。通过使用一个或多个车辆相机获取的图像和/或视频来训练视觉模型。训练用于自主驾驶的强化学习控制器利用包括完全或部分观察到的状态的标记图像。该方法还包括通过向驱动机构、制动机构和加速机构中的至少一个发送信号,使用强化学习控制器来自主地驾驶车辆。
在另一方面,一种系统包括:非瞬态存储器,用于存储应用,该应用用于:利用视觉模型训练用于自主驾驶的强化学习控制器,并利用该视觉模型利用用于自主驾驶的强化学习控制器;以及处理器,耦合到存储器,该处理器被配置用于处理应用。训练用于自主驾驶的强化学习控制器利用第一方面来提供关于在做出决定时要探索的选项的引导,以及利用第二方面来学习如何基于来自视觉模型的视觉信息做出反应。第一方面实现引导策略搜索,该引导策略搜索针对任务的特定实例迭代地优化一组本地策略,并使用本地策略来训练可跨任务实例使用的通用全局策略并限制搜索空间。利用用于自主驾驶的强化学习控制器利用第二方面来学习如何基于来自视觉模型的视觉信息做出反应。通过使用一个或多个车辆相机获取的图像和/或视频来训练视觉模型。训练用于自主驾驶的强化学习控制器利用包括完全或部分观察到的状态的标记图像。该强化学习控制器还被配置为通过向驱动机构、制动机构和加速机构中的至少一个发送信号来自主地驾驶车辆。
在又一方面,一种车辆包括:一个或多个相机,被配置用于获取视觉信息;以及一个或多个计算设备,被配置用于:利用包括视觉信息的视觉模型训练用于自主驾驶的强化学习控制器,并利用包括视觉信息的视觉模型利用用于自主驾驶的强化学习控制器。训练用于自主驾驶的强化学习控制器利用第一方面来提供关于在做出决定时探索的选项的引导,以及利用第二方面来学习如何基于来自视觉模型的视觉信息做出反应。第一方面实现引导策略搜索,该引导策略搜索针对任务的特定实例迭代地优化一组本地策略,并使用本地策略来训练可跨任务实例使用的通用全局策略并限制搜索空间。利用用于自主驾驶的强化学习控制器利用第二方面来学习如何基于来自视觉模型的视觉信息做出反应。训练用于自主驾驶的强化学习控制器利用包括完全或部分观察到的状态的标记图像。该强化学习控制器还被配置为通过向驱动机构、制动机构和加速机构中的至少一个发送信号来自主地驾驶车辆。
附图说明
图1图示了根据一些实施例的实现在训练期间用于自主驾驶的基于视觉的强化学习框架的图。
图2图示了根据一些实施例的实现在部署期间用于自主驾驶的基于视觉的强化学习框架的图。
图3图示了根据一些实施例的实现用于自主驾驶的基于视觉的强化学习框架的方法的流程图。
图4图示了根据一些实施例的被配置为实现基于视觉的强化学习框架的示例性计算设备的框图。
图5图示了根据一些实施例的被配置用于实现基于视觉的强化学习框架的车辆的图。
具体实施方式
本文描述了基于用于自主驾驶的引导策略搜索结合视觉(例如,图像)和样本高效的强化学习的框架。控制器从视觉中提取环境信息并且被训练以使用强化学习进行驾驶。其动机是成为样本高效的,以节省时间并避免使机器人疲劳或受损。该框架基于用于自主驾驶的引导策略搜索结合视觉和强化学习。引导策略搜索将有希望(promising)区域内的搜索空间限制为样本高效的。
使用一个或多个图像/视频处理算法处理诸如使用相机获取的信息的视觉输入,然后基于处理算法,能够进行学习。强化学习类似于人类如何通过使用试错(trial anderror)奖励正面行为和惩罚负面行为来学习。此外,通过利用神经网络的深度学习,强化学习从没有人工设计特征的视觉输入中学习。引导策略搜索通过针对任务的特定实例迭代地优化一组本地策略来辅助学习,并使用策略来训练可跨任务实例使用的通用全局策略。
图1图示了根据一些实施例的实现在训练期间用于自主驾驶的基于视觉的强化学习框架的图。车辆相机100捕获用于训练和生长视觉模型102的图像/视频。视觉模型102用于检测、识别和分类所捕获的图像/视频内的物体,诸如人、树、其它车辆和任何其它物体/驾驶状态。在一些实施例中,使用LIDAR和/或三维内容获取来捕获和存储视觉信息。在一些实施例中,捕获音频并将其用于辅助训练视觉模型。取决于实现,视觉模型能够包括图像、视频和/或音频、计算/数字信息、深度图信息、分类信息、标签信息、任何其它信息和/或其任何组合。来自视觉模型102的输出进入强化学习控制器104,强化学习控制器104也接收标记图像106,标记图像106包括完全观察到的图像的状态。在一些实施例中,标记图像106包括部分观察到的图像的状态。视觉模型输出能够以任何格式并且包括任何类型的输出,诸如提取出的用于驾驶的状态。标记图像106能够包括计算/数字信息、深度图信息、分类信息、标签信息、任何其它信息和/或其任何组合。强化学习控制器104利用标记图像106和视觉模型输出来强化学习。强化学习控制器104在训练时利用两个方面。第一方面,例如,教师方面,提供在做出决定时诸如要探索的有希望的搜索空间的引导。在一些实施例中,强化学习包括实现引导策略搜索,该引导策略搜索通过针对任务的特定实例迭代地优化一组本地策略来辅助学习,并使用策略来训练可跨任务实例使用的通用全局策略并将有希望区域内的搜索空间限制为样本高效的。例如,当接近物体(包括击中物体)时不是利用做什么的所有选项,而是利用引导使得排除包括加速和击中物体的选项,并且关注更可能的选项,诸如制动、减速和避免物体。第二方面,例如,学习方面,基于视觉信息、采取的选项(例如,停止、加速、转弯)以及选项的结果(例如,击中物体-负面结果,避免物体–正面结果)来学习如何驾驶/反应。强化学习控制器104用于通过向车辆控制器提供信号(诸如触发制动、加速、转向、发信号通知和/或任何其它车辆控制特征)来自主地控制车辆108。学习能够使用模拟/模拟器和/或经由实际驾驶来进行。
图2图示了根据一些实施例的实现在部署期间用于自主驾驶的基于视觉的强化学习框架的图。车辆相机100捕获用于训练和生长视觉模型102的图像/视频。视觉模型102用于检测、识别和分类所捕获的图像/视频内的物体,诸如人、树、其它车辆和任何其它物体/驾驶状态。在一些实施例中,使用光检测和测距(LIDAR)和/或三维内容获取来捕获和存储视觉信息。在一些实施例中,捕获音频并将其用于辅助训练视觉模型。取决于实现,视觉模型能够包括图像、视频和/或音频、计算/数字信息、深度图信息、分类信息、标签信息、任何其它信息和/或其任何组合。来自视觉模型102的输出进入强化学习控制器104。视觉模型输出能够以任何格式并且包括任何类型的输出,诸如提取出的用于驾驶的状态。强化学习控制器104利用先前的训练和视觉模型输出。在一些实施例中,强化学习控制器104在部署期间继续学习。强化学习控制器104用于通过向车辆控制器提供信号(诸如触发制动、加速、转向、发信号通知和/或任何其它车辆控制特征)来自主地控制车辆108。
在一些实施例中,视觉模型102和强化学习控制器104被组合在单个单元中。
图3图示了根据一些实施例的实现用于自主训练的基于视觉的强化学习框架的方法的流程图。在步骤300中,训练基于视觉的强化学习控制器。在一些实施例中,在基于视觉的强化学习控制器的训练之前或期间训练视觉模型。如上所述,使用视觉模型和标记图像训练强化学习控制器,并且强化学习控制器(教师和学习)的两个方面都用于训练。在步骤302中,部署基于视觉的强化学习控制器。如上所述,在部署期间,强化学习控制器利用先前的训练和视觉模型输出。在一些实施例中,强化学习控制器在部署期间继续学习。在一些实施例中,实现更少或附加的步骤。在一些实施例中,修改步骤的顺序。
图4图示了根据一些实施例的被配置为实现基于视觉的强化学习框架的示例性计算设备的框图。计算设备400能够用于获取、存储、计算、处理、传送和/或显示诸如图像和视频之类的信息。计算设备400能够实现任何基于视觉的强化学习框架方面。通常,适合于实现计算设备400的硬件结构包括网络接口402、存储器404、处理器406、(一个或多个)I/O设备408、总线410和存储设备412。处理器的选择不重要,只要选择具有足够速度的合适处理器即可。存储器404能够是本领域中已知的任何通用计算机存储器。存储设备412能够包括硬盘驱动器、CDROM、CDRW、DVD、DVDRW、高清晰度盘/驱动器、超高清驱动器、闪存卡或任何其它存储设备。计算设备400能够包括一个或多个网络接口402。网络接口的示例包括连接到以太网或其它类型的LAN的网卡。(一个或多个)I/O设备408能够包括以下中的一个或多个:键盘、鼠标、监视器、屏幕、打印机、调制解调器、触摸屏、按钮接口和其它设备。用于实现基于视觉的强化学习框架的(一个或多个)基于视觉的强化学习框架应用430可能存储在存储设备412和存储器404中,并且如应用通常被处理的那样进行处理。图4中示出的更多或更少的部件能够被包括在计算设备400中。在一些实施例中,包括基于视觉的强化学习框架硬件420。虽然图4中的计算设备400包括用于基于视觉的强化学习框架的应用430和硬件420,但是基于视觉的强化学习框架能够用硬件、固件、软件或其任何组合在计算设备上实现。例如,在一些实施例中,基于视觉的强化学习框架应用430被编程在存储器中并使用处理器执行。在另一个示例中,在一些实施例中,基于视觉的强化学习框架硬件420是编程的硬件逻辑,包括专门被设计用于实现基于视觉的强化学习框架的门。
在一些实施例中,(一个或多个)基于视觉的强化学习框架应用430包括若干应用和/或模块。在一些实施例中,模块也包括一个或多个子模块。在一些实施例中,能够包括更少或附加的模块。
合适的计算设备的示例包括车辆计算机、嵌入式计算机、个人计算机、膝上型计算机、计算机工作站、服务器、大型计算机、手持式计算机、个人数字助理、蜂窝/移动电话、智能电器、游戏控制台、数码相机、数码摄像机、照相电话、智能电话、便携式音乐播放器、平板计算机、移动设备、视频播放器、视频盘刻录机/播放器(例如,DVD刻录机/播放器、高清晰度盘刻录机/播放器、超高清盘刻录机/播放器)、电视、家庭娱乐系统、增强现实设备、虚拟现实设备、智能珠宝(例如,智能手表)或任何其它合适的计算设备。
图5图示了根据一些实施例的被配置用于实现基于视觉的强化学习框架的车辆的图。车辆500包括一个或多个计算设备400,其被配置为利用一个或多个相机设备502来实现基于视觉的强化学习框架,该一个或多个相机设备502位于车辆上的任何位置,诸如在顶上,在前面、在侧面、在后面或在下面。相机502能够是任何类型的相机,诸如360度相机、视频相机或旋转相机。附加设备能够用于实现基于视觉的强化学习框架。虽然示出了汽车,但是车辆能够是任何类型的自主或部分自主车辆,诸如汽车、卡车、飞机、自行车、摩托车或船。
本文描述的框架能够与硬件和软件一起使用,包括能够足够快地做出决定以避免冲突和/或任何其它驾驶情况的视觉输入。该框架也能够与诸如赛车游戏之类的游戏一起使用。
为了利用本文描述的基于视觉的强化学习框架,车辆包括用于获取图像/视频的诸如数码相机/摄像机的设备,这些图像/视频然后被处理以进行学习和自主地驾驶车辆。基于视觉的强化学习框架能够在用户帮助下实现,或者在没有用户参与的情况下自动实现。
在操作中,基于视觉的强化学习框架基于用于自主驾驶的引导策略搜索结合了视觉和样本高效的强化学习。控制器从视觉中提取环境信息并且被训练以使用强化学习进行驾驶。通过利用强化学习而不是基于规则的学习,该框架能够更好地扩展,因为自动驾驶需要数百万个不同场景的数百万个决策。此外,基于视觉的强化学习框架也利用引导策略搜索,该引导策略搜索将搜索引导到更有希望的区域,从而缩短搜索时间并更加适当地集中搜索,从而实现高效的学习,同时在自动驾驶期间做出实时决策。
用于自主驾驶的基于视觉的样本高效的强化学习框架的一些实施例
1、一种方法,包括:
利用视觉模型训练用于自主驾驶的强化学习控制器;以及
利用视觉模型部署用于自主驾驶的强化学习控制器。
2、如条款1所述的方法,其中训练用于自主驾驶的强化学习控制器利用第一方面来提供关于在做出决定时要探索的选项的引导,以及利用第二方面来学习如何基于来自视觉模型的视觉信息做出反应。
3、如条款2所述的方法,其中第一方面实现引导策略搜索,所述引导策略搜索针对任务的特定实例迭代地优化一组本地策略,并使用本地策略来训练可跨任务实例使用的通用全局策略并限制搜索空间。
4、如条款2所述的方法,其中部署用于自主驾驶的强化学习控制器利用第二方面来学习如何基于来自视觉模型的视觉信息做出反应。
5、如条款1所述的方法,其中通过使用一个或多个车辆相机获取的图像和/或视频来训练视觉模型。
6、如条款1所述的方法,其中训练用于自主驾驶的强化学习控制器利用包括完全或部分观察到的状态的标记图像。
7、如条款1所述的方法,还包括通过向驱动机构、制动机构和加速机构中的至少一者发送信号,使用强化学习控制器来自主地驾驶车辆。
8、一种系统,包括:
非瞬态存储器,用于存储应用,所述应用用于:
利用视觉模型训练用于自主驾驶的强化学习控制器;以及
利用视觉模型利用用于自主驾驶的强化学习控制器;以及
处理器,耦合到所述存储器,所述处理器被配置用于处理所述应用。
9、如条款8所述的系统,其中训练用于自主驾驶的强化学习控制器利用第一方面来提供关于在做出决定时要探索的选项的引导,以及利用第二方面来学习如何基于来自视觉模型的视觉信息做出反应。
10、如条款9所述的系统,其中第一方面实现引导策略搜索,所述引导策略搜索针对任务的特定实例迭代地优化一组本地策略,并使用本地策略来训练可跨任务实例使用的通用全局策略并限制搜索空间。
11、如条款9所述的系统,其中利用用于自主驾驶的强化学习控制器利用第二方面来学习如何基于来自视觉模型的视觉信息做出反应。
12、如条款8所述的系统,其中通过使用一个或多个车辆相机获取的图像和/或视频来训练视觉模型。
13、如条款8所述的系统,其中训练用于自主驾驶的强化学习控制器利用包括完全或部分观察到的状态的标记图像。
14、如条款8所述的系统,其中强化学习控制器还被配置为通过向驱动机构、制动机构和加速机构中的至少一者发送信号来自主地驾驶车辆。
15、一种车辆,包括:
一个或多个相机,被配置用于获取视觉信息;以及
一个或多个计算设备,被配置用于:
利用包括视觉信息的视觉模型训练用于自主驾驶的强化学习控制器;以及
利用包括视觉信息的视觉模型利用用于自主驾驶的强化学习控制器。
16、如条款15所述的车辆,其中训练用于自主驾驶的强化学习控制器利用第一方面来提供关于在做出决定时要探索的选项的引导,以及利用第二方面来学习如何基于来自视觉模型的视觉信息做出反应。
17、如条款16所述的车辆,其中第一方面实现引导策略搜索,所述引导策略搜索针对任务的特定实例迭代地优化一组本地策略,并使用本地策略来训练可跨任务实例使用的通用全局策略并限制搜索空间。
18、如条款16所述的车辆,其中利用用于自主驾驶的强化学习控制器利用第二方面来学习如何基于来自视觉模型的视觉信息做出反应。
19、如条款15所述的车辆,其中训练用于自主驾驶的强化学习控制器利用包括完全或部分观察到的状态的标记图像。
20、如条款15所述的车辆,其中强化学习控制器还被配置为通过向驱动机构、制动机构和加速机构中的至少一者发送信号来自主地驾驶车辆。
已经根据结合细节的特定实施例描述了本发明,以便于理解本发明的构造和操作的原理。本文对特定实施例及其细节的这种引用并非旨在限制所附权利要求的范围。对于本领域技术人员来说显而易见的是,在不脱离由权利要求限定的本发明的精神和范围的情况下,可以在为说明而选择的实施例中进行其它各种修改。
Claims (14)
1.一种方法,包括:
利用视觉模型训练用于自主驾驶的强化学习控制器;以及
利用视觉模型部署用于自主驾驶的强化学习控制器,
其中训练用于自主驾驶的强化学习控制器利用第一方面来提供关于在做出决定时要探索的选项的引导,以及利用第二方面来学习如何基于来自视觉模型的视觉信息做出反应,并且
其中第一方面实现引导策略搜索,所述引导策略搜索针对任务的特定实例迭代地优化一组本地策略,并使用本地策略来训练能够跨任务实例使用的通用全局策略并限制搜索空间,包括从全部选项集中移除特定选项,以生成关注比所述特定选项可能性更大的选项的有限选项集,其中移除所述特定选项包括在接近物体时排除加速和击中物体。
2.如权利要求1所述的方法,其中部署用于自主驾驶的强化学习控制器利用第二方面来学习如何基于来自视觉模型的视觉信息做出反应。
3.如权利要求1所述的方法,其中通过使用一个或多个车辆相机获取的图像和/或视频来训练视觉模型。
4.如权利要求1所述的方法,其中训练用于自主驾驶的强化学习控制器利用包括完全或部分观察到的状态的标记图像。
5.如权利要求1所述的方法,还包括通过向驱动机构、制动机构和加速机构中的至少一者发送信号,使用强化学习控制器来自主地驾驶车辆。
6.一种系统,包括:
非瞬态存储器,用于存储应用,所述应用用于:
利用视觉模型训练用于自主驾驶的强化学习控制器;以及
利用视觉模型利用用于自主驾驶的强化学习控制器;以及处理器,耦合到所述存储器,所述处理器被配置用于处理所述应用,
其中训练用于自主驾驶的强化学习控制器利用第一方面来提供关于在做出决定时要探索的选项的引导,以及利用第二方面来学习如何基于来自视觉模型的视觉信息做出反应,并且
其中第一方面实现引导策略搜索,所述引导策略搜索针对任务的特定实例迭代地优化一组本地策略,并使用本地策略来训练能够跨任务实例使用的通用全局策略并限制搜索空间,包括从全部选项集中移除特定选项,以生成关注比所述特定选项可能性更大的选项的有限选项集,其中移除所述特定选项包括在接近物体时排除加速和击中物体。
7.如权利要求6所述的系统,其中利用用于自主驾驶的强化学习控制器利用第二方面来学习如何基于来自视觉模型的视觉信息做出反应。
8.如权利要求6所述的系统,其中通过使用一个或多个车辆相机获取的图像和/或视频来训练视觉模型。
9.如权利要求6所述的系统,其中训练用于自主驾驶的强化学习控制器利用包括完全或部分观察到的状态的标记图像。
10.如权利要求6所述的系统,其中强化学习控制器还被配置为通过向驱动机构、制动机构和加速机构中的至少一者发送信号来自主地驾驶车辆。
11.一种车辆,包括:
一个或多个相机,被配置用于获取视觉信息;以及
一个或多个计算设备,被配置用于:
利用包括视觉信息的视觉模型训练用于自主驾驶的强化学习控制器;以及
利用包括视觉信息的视觉模型利用用于自主驾驶的强化学习控制器,
其中训练用于自主驾驶的强化学习控制器利用第一方面来提供关于在做出决定时要探索的选项的引导,以及利用第二方面来学习如何基于来自视觉模型的视觉信息做出反应,并且
其中第一方面实现引导策略搜索,所述引导策略搜索针对任务的特定实例迭代地优化一组本地策略,并使用本地策略来训练能够跨任务实例使用的通用全局策略并限制搜索空间,包括从全部选项集中移除特定选项,以生成关注比所述特定选项可能性更大的选项的有限选项集,其中移除所述特定选项包括在接近物体时排除加速和击中物体。
12.如权利要求11所述的车辆,其中利用用于自主驾驶的强化学习控制器利用第二方面来学习如何基于来自视觉模型的视觉信息做出反应。
13.如权利要求11所述的车辆,其中训练用于自主驾驶的强化学习控制器利用包括完全或部分观察到的状态的标记图像。
14.如权利要求11所述的车辆,其中强化学习控制器还被配置为通过向驱动机构、制动机构和加速机构中的至少一者发送信号来自主地驾驶车辆。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US15/943,223 US11106211B2 (en) | 2018-04-02 | 2018-04-02 | Vision-based sample-efficient reinforcement learning framework for autonomous driving |
US15/943,223 | 2018-04-02 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110348278A CN110348278A (zh) | 2019-10-18 |
CN110348278B true CN110348278B (zh) | 2023-08-11 |
Family
ID=65440872
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910143542.7A Active CN110348278B (zh) | 2018-04-02 | 2019-02-27 | 用于自主驾驶的基于视觉的样本高效的强化学习框架 |
Country Status (5)
Country | Link |
---|---|
US (1) | US11106211B2 (zh) |
EP (1) | EP3564861B1 (zh) |
JP (1) | JP2019182400A (zh) |
KR (1) | KR102318027B1 (zh) |
CN (1) | CN110348278B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11720792B2 (en) * | 2019-07-31 | 2023-08-08 | Royal Bank Of Canada | Devices and methods for reinforcement learning visualization using immersive environments |
CN110568760B (zh) * | 2019-10-08 | 2021-07-02 | 吉林大学 | 适用于换道及车道保持的参数化学习决策控制系统及方法 |
US20210146531A1 (en) * | 2019-11-20 | 2021-05-20 | Nvidia Corporation | Guided uncertainty-aware policy optimization: combining model-free and model-based strategies for sample-efficient learning |
CN110843746B (zh) * | 2019-11-28 | 2022-06-14 | 的卢技术有限公司 | 一种基于强化学习的防抱死刹车控制方法及系统 |
CN111562740B (zh) * | 2020-05-06 | 2021-04-23 | 清华大学 | 基于利用梯度的多目标强化学习算法的自动控制方法 |
CN113835421B (zh) * | 2020-06-06 | 2023-12-15 | 华为技术有限公司 | 训练驾驶行为决策模型的方法及装置 |
CN114518758B (zh) * | 2022-02-08 | 2023-12-12 | 中建八局第三建设有限公司 | 基于q学习的室内测量机器人多目标点移动路径规划方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107168303A (zh) * | 2017-03-16 | 2017-09-15 | 中国科学院深圳先进技术研究院 | 一种汽车的自动驾驶方法及装置 |
CN107506830A (zh) * | 2017-06-20 | 2017-12-22 | 同济大学 | 面向智能汽车规划决策模块的人工智能训练平台 |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9764468B2 (en) * | 2013-03-15 | 2017-09-19 | Brain Corporation | Adaptive predictor apparatus and methods |
US9679258B2 (en) | 2013-10-08 | 2017-06-13 | Google Inc. | Methods and apparatus for reinforcement learning |
CN105705395B (zh) | 2013-12-11 | 2019-01-11 | 英特尔公司 | 个人驾驶偏好适应的车辆的计算机辅助或自主驾驶 |
US10101786B2 (en) * | 2014-12-22 | 2018-10-16 | Intel Corporation | Holistic global performance and power management |
AU2016297852C1 (en) | 2015-07-24 | 2019-12-05 | Deepmind Technologies Limited | Continuous control with deep reinforcement learning |
US9598076B1 (en) * | 2015-10-22 | 2017-03-21 | Ford Global Technologies, Llc | Detection of lane-splitting motorcycles |
US9536191B1 (en) | 2015-11-25 | 2017-01-03 | Osaro, Inc. | Reinforcement learning using confidence scores |
CN108431549B (zh) * | 2016-01-05 | 2020-09-04 | 御眼视觉技术有限公司 | 具有施加的约束的经训练的系统 |
JP6114421B1 (ja) * | 2016-02-19 | 2017-04-12 | ファナック株式会社 | 複数の産業機械の作業分担を学習する機械学習装置,産業機械セル,製造システムおよび機械学習方法 |
JP6790417B2 (ja) | 2016-03-31 | 2020-11-25 | ソニー株式会社 | 情報処理装置及び情報処理サーバ |
US10392038B2 (en) * | 2016-05-16 | 2019-08-27 | Wi-Tronix, Llc | Video content analysis system and method for transportation system |
US10061316B2 (en) * | 2016-07-08 | 2018-08-28 | Toyota Motor Engineering & Manufacturing North America, Inc. | Control policy learning and vehicle control method based on reinforcement learning without active exploration |
KR20160132789A (ko) * | 2016-10-31 | 2016-11-21 | 도영민 | 사회적 자율주행 교통장치 |
US11062207B2 (en) * | 2016-11-04 | 2021-07-13 | Raytheon Technologies Corporation | Control systems using deep reinforcement learning |
US20190050729A1 (en) * | 2018-03-26 | 2019-02-14 | Intel Corporation | Deep learning solutions for safe, legal, and/or efficient autonomous driving |
-
2018
- 2018-04-02 US US15/943,223 patent/US11106211B2/en active Active
-
2019
- 2019-02-14 EP EP19157204.9A patent/EP3564861B1/en active Active
- 2019-02-15 JP JP2019025434A patent/JP2019182400A/ja active Pending
- 2019-02-25 KR KR1020190021909A patent/KR102318027B1/ko active IP Right Grant
- 2019-02-27 CN CN201910143542.7A patent/CN110348278B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107168303A (zh) * | 2017-03-16 | 2017-09-15 | 中国科学院深圳先进技术研究院 | 一种汽车的自动驾驶方法及装置 |
CN107506830A (zh) * | 2017-06-20 | 2017-12-22 | 同济大学 | 面向智能汽车规划决策模块的人工智能训练平台 |
Non-Patent Citations (1)
Title |
---|
Flexible Robotic Grasping with Sim-to-Real Transfer based Reinforcement Learning;Michel Breyer ET AL;《https://arxiv.org/abs/1803.04996v1》;20180313;第2-8页 * |
Also Published As
Publication number | Publication date |
---|---|
EP3564861A1 (en) | 2019-11-06 |
CN110348278A (zh) | 2019-10-18 |
JP2019182400A (ja) | 2019-10-24 |
KR102318027B1 (ko) | 2021-10-27 |
KR20190119510A (ko) | 2019-10-22 |
US20190302785A1 (en) | 2019-10-03 |
EP3564861B1 (en) | 2024-02-07 |
US11106211B2 (en) | 2021-08-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110348278B (zh) | 用于自主驾驶的基于视觉的样本高效的强化学习框架 | |
US20230004801A1 (en) | Training, testing, and verifying autonomous machines using simulated environments | |
US11543830B2 (en) | Unsupervised real-to-virtual domain unification for end-to-end highway driving | |
US11966673B2 (en) | Sensor simulation and learning sensor models with generative machine learning methods | |
US11092966B2 (en) | Building an artificial-intelligence system for an autonomous vehicle | |
EP3289529B1 (en) | Reducing image resolution in deep convolutional networks | |
CN107851191B (zh) | 用于图像中的对象检测的基于上下文的先验 | |
CN108388834A (zh) | 利用循环神经网络和级联特征映射的对象检测 | |
US10964033B2 (en) | Decoupled motion models for object tracking | |
CN113614730B (zh) | 多帧语义信号的cnn分类 | |
KR20170140214A (ko) | 신경망을 위한 훈련 기준으로서의 필터 특이성 | |
WO2021021355A1 (en) | Trajectory prediction | |
TW201633181A (zh) | 用於經非同步脈衝調制的取樣信號的事件驅動型時間迴旋 | |
US11150656B2 (en) | Autonomous vehicle decision making | |
Karni et al. | Development of autonomous downscaled model car using neural networks and machine learning | |
Souza et al. | Vision-based autonomous navigation using neural networks and templates in urban environments | |
Sun et al. | The Architecture of a Driverless Robot Car Based on EyeBot System | |
Cultrera et al. | Explaining autonomous driving with visual attention and end-to-end trainable region proposals | |
Meftah et al. | Deep residual network for autonomous vehicles obstacle avoidance | |
Yuhas et al. | Demo abstract: Real-time out-of-distribution detection on a mobile robot | |
CN112699800A (zh) | 一种车辆查找方法、装置、存储介质及终端 | |
Kozel et al. | Real-Time Traffic Light Identification using YOLOv3 Algorithm For Autonomous Vehicles | |
Gideon et al. | Autonomous lane navigation: Using hand-coded method and deep learning method | |
US20240092390A1 (en) | Virtual agent trajectory prediction and traffic modeling for machine simulation systems and applications | |
Ramayee | Design of Mobility Cyber Range and Vision-Based Adversarial Attacks on Camera Sensors in Autonomous Vehicles |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |