CN109460015B - 用于自主驾驶应用的无监督学习代理 - Google Patents

用于自主驾驶应用的无监督学习代理 Download PDF

Info

Publication number
CN109460015B
CN109460015B CN201810986094.2A CN201810986094A CN109460015B CN 109460015 B CN109460015 B CN 109460015B CN 201810986094 A CN201810986094 A CN 201810986094A CN 109460015 B CN109460015 B CN 109460015B
Authority
CN
China
Prior art keywords
discriminator
environmental state
module
interpretation
function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810986094.2A
Other languages
English (en)
Other versions
CN109460015A (zh
Inventor
P·帕拉尼萨梅
U·P·穆达里戈
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
GM Global Technology Operations LLC
Original Assignee
GM Global Technology Operations LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by GM Global Technology Operations LLC filed Critical GM Global Technology Operations LLC
Publication of CN109460015A publication Critical patent/CN109460015A/zh
Application granted granted Critical
Publication of CN109460015B publication Critical patent/CN109460015B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0231Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means
    • G05D1/0234Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using optical markers or beacons
    • G05D1/0236Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using optical markers or beacons in combination with a laser
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/0088Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots characterized by the autonomous decision making process, e.g. artificial intelligence, predefined behaviours
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0221Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0223Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving speed control of the vehicle
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0231Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means
    • G05D1/0238Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using obstacle or wall sensors
    • G05D1/024Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using obstacle or wall sensors in combination with a laser
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0231Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means
    • G05D1/0246Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using a video camera in combination with image processing means
    • G05D1/0253Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using a video camera in combination with image processing means extracting relative motion information from a plurality of images taken successively, e.g. visual odometry, optical flow
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0255Control of position or course in two dimensions specially adapted to land vehicles using acoustic signals, e.g. ultra-sonic singals
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0257Control of position or course in two dimensions specially adapted to land vehicles using a radar
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0259Control of position or course in two dimensions specially adapted to land vehicles using magnetic or electromagnetic means
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0276Control of position or course in two dimensions specially adapted to land vehicles using signals provided by a source external to the vehicle
    • G05D1/0278Control of position or course in two dimensions specially adapted to land vehicles using signals provided by a source external to the vehicle using satellite positioning signals, e.g. GPS
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0276Control of position or course in two dimensions specially adapted to land vehicles using signals provided by a source external to the vehicle
    • G05D1/0285Control of position or course in two dimensions specially adapted to land vehicles using signals provided by a source external to the vehicle using signals transmitted via a public communication network, e.g. GSM network
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Theoretical Computer Science (AREA)
  • Automation & Control Theory (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Electromagnetism (AREA)
  • Game Theory and Decision Science (AREA)
  • Medical Informatics (AREA)
  • Business, Economics & Management (AREA)
  • Optics & Photonics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Algebra (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Traffic Control Systems (AREA)

Abstract

提供了用于控制车辆的系统和方法。在一个实施例中,提供了一种包括训练自主驾驶代理的计算机实施方法,该方法包括以下步骤:由处理器使用神经网络从驾驶行为的演示中提取信息;将提取的信息传输到发生器模块;将与驾驶行为的演示相关联的真实环境状态传输到鉴别器模块;由处理器使用发生器模块从提取的信息中产生环境状态解译;由处理器训练鉴别器模块以更好地确定所产生的环境状态解译是否对应于真实环境状态,同时由处理器训练发生器模块以产生鉴别器确定对应于真实环境状态的改进的环境状态解译;并且由处理器使用从经过训练的发生器模块中产生的环境状态解译来恢复奖励图。

Description

用于自主驾驶应用的无监督学习代理
引言
本公开总体上涉及自主车辆,并且更具体地涉及用于自主车辆驾驶代理的无监督训练的系统和方法。
背景技术
本节提供与本公开有关的背景信息,该背景信息不一定是现有技术。
自主车辆是能够感测其环境并且以很少或不需要用户输入进行导航的车辆。自主车辆使用诸如雷达、激光雷达、图像传感器等感测装置来感测其环境。自主车辆系统进一步使用来自全球定位系统(GPS)技术、导航系统、车对车通信、车对基础设施技术和/或线控驱动系统的信息来对车辆进行导航。
车辆自动化已经被分类为从零(对应于全人为控制的非自动化)到五(对应于无人为控制的全自动化)的范围中的数值等级。各种自动驾驶员辅助系统(诸如巡航控制、自适应巡航控制以及停放辅助系统)对应于较低自动化等级,而真正的“无人驾驶”车辆对应于较高自动化等级。
驾驶车辆需要来自驾驶员的大量技能、经验以及感知。因此,必须训练自主代理以便能够匹配或者甚至超越人类的驾驶能力。
因此,与人类驾驶员相比,期望获得训练自主驾驶代理以进行等效或改进的驾驶决策的方法。另外,期望获得训练自主驾驶代理的方法,该方法在很大程度上是无监督的,并且不需要对训练数据进行大量标记。还期望恢复关于为什么自主驾驶代理响应于特定环境状态而选择特定驾驶动作的推理(潜在动机)。另外,从以下结合附图和前面的技术领域及背景技术进行的实施方式和所附权利要求书中将更清楚地明白本发明的其它期望特征和特性。
发明内容
提供了用于控制车辆的系统和方法。
在一个实施例中,提供了一种训练自主驾驶代理的计算机实施方法,该方法包括以下步骤:由处理器使用神经网络从驾驶行为的演示中提取信息;由处理器从提取的信息中恢复奖励图;将提取的信息传输到发生器模块;将与驾驶行为的演示相关联的真实环境状态和恢复的奖励图传输到鉴别器模块;由处理器使用发生器模块从提取的信息中产生环境状态解译;由处理器训练鉴别器模块以更好地确定所产生的环境状态解译是否对应于真实环境状态,同时由处理器训练发生器模块以产生该鉴别器确定对应于真实环境状态的改进的环境状态解译。
在一个实施例中,该方法进一步包括使用显示器显示改进的环境状态解译。
在一个实施例中,由发生器产生的改进的环境状态用于更新奖励图。
在实施例中,其中驾驶行为的演示取自人类驱动的数据日志(例如,存储在计算机存储器中),例如取自不同的驾驶环境和/或具有不同的驾驶目标。
在一个实施例中,使用卷积神经网络提取所提取的信息。在一个实施例中,卷积神经网络是深度卷积神经网络。
在一个实施例中,经由深度逆强化学习模块使用深度逆强化学习来恢复奖励函数。
在一个实施例中,使用损失或成本梯度函数来执行鉴别器模块的训练。
在一个实施例中,使用损失或成本梯度函数来执行发生器模块的训练。
在一个实施例中,该方法进一步包括将提取的信息传输到鉴别器模块的步骤,并且鉴别器模块配置为确定所产生的环境状态解译是否对应于提取的信息。
在一个实施例中,传感器包括光学相机。在一个实施例中,传感器包括LIDAR系统。在一个实施例中,传感器包括RADAR系统。
在一个实施例中,提供了一种用于训练自主驾驶代理的系统,该系统包括神经网络,该神经网络配置为从驾驶行为的演示中提取信息;深度逆强化学习模块,其配置为从提取的信息中恢复奖励图;发生器模块,其配置为基于提取的信息来产生环境状态解译;以及鉴别器模块,其配置为至少部分地使用所恢复的奖励图来确定所产生的环境状态解译是否对应于与提取的信息相关联的真实环境状态。
在一个实施例中,该系统进一步包括显示器,其配置为显示所产生的环境状态解译。
在一个实施例中,深度逆强化学习模块配置为基于所产生的环境状态解译来更新奖励图。
在实施例中,该系统使用所恢复的奖励图和鉴别器模块来预测驾驶场景的类似人为解译。
在实施例中,深度逆强化学习(DIRL)模块从人类驾驶数据日志(其包含环境状态和/或动作/演示)中恢复奖励图。鉴别器模块使用所恢复的奖励图以及真实环境状态来鉴别发生器模块的输出。
在实施例中,当没有人为演示时,DIRL模块在运行时/测试时/部署之后使用所恢复的奖励函数(或动机图)来选择策略(其规定在给定感测的环境状态下采取什么动作)。自主驾驶代理使用该策略来发送控制命令和/或致动自主车辆。
在一个实施例中,神经网络是深度卷积神经网络。
在一个实施例中,深度逆强化学习模块配置为经由深度逆强化学习来恢复奖励图。
在一个实施例中,鉴别器模块配置为基于损失或成本函数来迭代地改进对所产生的环境状态解译是否对应于真实环境状态的确定。
在一个实施例中,发生器模块配置为基于损失或成本函数来迭代地改进对所产生的环境状态解译是否对应于真实环境状态的确定。
在一个实施例中,鉴别器模块进一步配置为确定所产生的环境状态解译是否对应于提取的信息。
在一个实施例中,鉴别器模块配置为基于损失或成本函数来迭代地改进对所产生的环境状态解译是否对应于提取的信息的确定。
在一个实施例中,传感器包括光学相机。在一个实施例中,传感器包括LIDAR系统。在一个实施例中,传感器包括RADAR系统。
在一个实施例中,提供了一种车辆,该车辆包括:传感器,其配置为感测与车辆周围的环境状态的特征有关的信息;神经网络,其配置为从传感器信息中提取信息;经过训练的自主驾驶代理,其配置为基于提取的信息来确定驾驶动作的策略;以及发生器模块,其配置为基于提取的信息来产生环境状态解译。
在一个实施例中,车辆进一步包括鉴别器模块,其配置为确定所产生的环境状态解译是否对应于由传感器感测的真实环境状态,其中鉴别器模块进一步配置为存储该确定。
在一个实施例中,鉴别器模块配置为在存储器中存储所产生的环境解译以及所产生的环境解译所基于的相关真实环境状态。
在一个实施例中,传感器包括光学相机。在一个实施例中,传感器包括LIDAR系统,在一个实施例中,传感器包括RADAR系统。
在一个实施例中,神经网络是深度卷积神经网络。
附图说明
下文将结合以下附图描述示例性实施例,其中相同标号表示相同元件,且其中:
图1是说明根据各种实施例的具有自主驾驶代理的自主车辆的功能框图;
图2是说明根据各种实施例的可以如何使用专家驾驶演示来训练自主驾驶代理的框图;
图3是说明根据各种实施例的训练自主代理的方法的流程图;
图4是说明根据各种实施例的可以如何由发生器模块产生环境解译作为对抗训练过程的一部分的示意图;
图5是说明根据各种实施例的可以如何将发生器模块和鉴别器模块训练为对手的流程图;
图6是说明根据各种实施例训练的自主代理可以如何结合到自主车辆中的框图;
图7是说明根据各种实施例训练的自主代理可以如何结合到自主车辆中的框图;并且
图8是说明根据各种实施例的用于自主代理的训练方法的流程图。
具体实施方式
具体实施方式本质上仅仅是示例性的,而不旨在本发明的限制应用和用途。另外,不存在被任何前述的技术领域、背景技术、发明内容或具体实施方式中提出的任何明确的或暗示的理论约束的意图。如本文所使用,术语模块是指单独地或呈任何组合的任何硬件、软件、固件、电子控制部件、处理逻辑和/或处理器装置,包括但不限于:专用集成电路(ASIC)、电子电路、处理器(共享、专用或成组)以及执行一个或多个软件或固件程序的存储器、神经网络、组合逻辑电路和/或提供所述功能性的其它合适部件。
本公开的实施例在本文可以依据功能和/或逻辑块部件和各个处理步骤来描述。应当明白的是,这些块部件可以由配置为执行指定功能的任何数量的硬件、软件和/或固件部件来实施。例如,本公开的实施例可以采用各种集成电路部件(例如,存储器元件、数字信号处理元件、逻辑元件、查找表等,其可以在一个或多个微处理器或其它控制装置的控制下执行多种功能)。另外,本领域技术人员将明白的是,本公开的实施例可以结合任何数量的系统来实践,并且本文所述的系统仅仅是本公开的示例性实施例。
为了简明起见,本文可以不详细描述与信号处理、数据传输、信令、控制以及该系统(和该系统的单个操作部件)的其它功能方面有关的常规技术。另外,本文所包括的各个图式中所示的连接线旨在表示各个元件之间的示例功能关系和/或物理联接。应当注意的是,在本公开的实施例中可以存在许多替代或附加的功能关系或物理连接。
参考图1,根据各种实施例,总体上以100示出的自主驾驶系统与车辆10相关联。通常,自主系统100包括自主驾驶代理模块1000,其配置为基于感测的环境条件来确定驾驶动作。自主驾驶代理智能地控制车辆10。
如图1中所描绘,车辆10可以包括底盘12、车身14、前轮16以及后轮18。车身14被布置在底盘12上并且大致上包围车辆10的部件。车身14和底盘12可以共同形成框架。车轮16到18各自在车身14的相应拐角附近旋转地联接到底盘12。
在各种实施例中,车辆10是自主车辆,并且自主驾驶代理模块1000被结合到自主车辆10中。下面将更详细地描述自主驾驶代理模块1000的功能。自主车辆10例如是被自动控制以将乘客从一个位置运送到另一个位置的车辆。在所说明的实施例中,车辆10被描绘为乘用车,但是应当明白的是,也可以使用包括摩托车、卡车、运动型多用途车辆(SUV)、休闲车辆(RV)、船舶、飞行器等任何其它车辆。在示例性实施例中,自主车辆10是所谓的四级或五级自动化系统。四级系统指示“高度自动化”,其指代自动驾驶系统在动态驾驶任务的所有方面的驾驶模式所特有的性能,即使人类驾驶员对干预请求没有做出适当响应。五级系统指示“全自动化”,其指代自动驾驶系统在可由人类驾驶员管理的所有道路和环境状况下在动态驾驶任务的所有方面的全面性能。
如所示,自主车辆10通常包括推进系统20、变速器系统22、转向系统24、制动系统26、传感器系统28、致动器系统30、至少一个数据存储装置32、至少一个控制器34以及通信系统36。推进系统20在各种实施例中可以包括内燃机、诸如牵引电动机等电机和/或燃料电池推进系统。变速器系统22配置为根据可选速比将来自推进系统20的动力传输到车轮16到18。根据各种实施例,变速器系统22可以包括分级传动比自动变速器、无级变速器或其它适当的变速器。制动系统26配置为向车轮16到18提供制动转矩。在各种实施例中,制动系统26可以包括摩擦制动器、线控制动器、诸如电机等再生制动系统,和/或其它适当的制动系统。转向系统24影响车轮16到18的位置。虽然为了说明目的而被描绘为包括方向盘,但是在本公开的范围内预期的一些实施例中,转向系统24可以不包括方向盘。
传感器系统28包括感测自主车辆10的外部环境和/或内部环境的可观察状况的一个或多个感测装置40a到40n。感测装置40a到40n可以包括但不限于雷达、激光雷达、全球定位系统、光学相机、热像仪、超声波传感器、惯性测量单元和/或其它传感器。致动器系统30包括一个或多个致动器装置42a到42n,其控制一个或多个车辆特征,诸如但不限于推进系统20、变速器系统22、转向系统24以及制动系统26。在各种实施例中,车辆特征可以进一步包括内部和/或外部车辆特征,诸如但不限于车门、行李箱以及诸如无线电、音乐、照明等驾驶室特征(未编号)。
通信系统36可以配置为向和从其它实体48(诸如但不限于其它车辆(“V2V”通信)、基础设施(“V2I”通信)、远程系统和/或个人装置无线地传送信息。在示例性实施例中,通信系统36是配置为经由使用IEEE802.11标准的无线局域网(WLAN)或通过使用蜂窝数据通信来进行通信的无线通信系统。然而,诸如专用短程通信(DSRC)信道等附加或替代通信方法也被认为在本公开的范围内。DSRC信道是指专门为汽车使用以及相应的一组协议和标准而设计的单向或双向短程到中程无线通信信道。
数据存储装置32存储用于自动控制自主车辆10的数据。在各种实施例中,数据存储装置32存储可导航环境的定义地图。在各种实施例中,定义地图可以由远程系统预定义并且从远程系统获。例如,定义地图可以由远程系统组装并且(以无线方式和/或以有线方式)传送到自主车辆10并存储在数据存储装置32中。如将明白的是,数据存储装置32可以为控制器34的一部分,与控制器34分开,或作为控制器34的一部分以及单独系统的一部分。
控制器34包括至少一个处理器44和计算机可读存储装置或介质46,其中的每一个都可以与自主驾驶代理模块1000相关联。处理器44可以为任何定制的或商业上可用的处理器、中央处理单元(CPU)、图形处理单元(GPU)、与控制器34相关联的若干处理器中的辅助处理器、基于半导体的微处理器(呈微芯片或芯片集的形式)、宏处理器、它们的任何组合或通常用于执行指令的任何装置。计算机可读存储装置或介质46可以包括例如只读存储器(ROM)、随机存取存储器(RAM)和保活存储器(KAM)中的易失性和非易失性存储器。KAM是一种持久或非易失性存储器,其可以在处理器44断电时用于存储各种操作变量。计算机可读存储装置或介质46可以使用诸如PROM(可编程只读存储器)、EPROM(电PROM)、EEPROM(电可擦除PROM)、闪速存储器或能够存储数据的任何其它电动、磁性、光学或组合存储器装置的许多已知存储器中的任何一种来实施,其中的某些数据表示由控制器34用于控制自主车辆10的可执行指令。
指令可以包括一个或多个单独的程序,每个程序包括用于实施逻辑功能的可执行指令的有序列表。指令在由处理器44执行时接收并处理来自传感器系统28的信号,执行用于自动控制自主车辆10的部件的逻辑、计算、方法和/或算法,并且向致动器系统30产生控制信号以基于逻辑、计算、方法和/或算法来自动地控制自主车辆10的部件。可以基于经由处理器44由如下面将更详细地解释的自主驾驶代理模块1000做出的驾驶决定来确定自主车辆10的部件的控制。虽然图1中仅示出了一个控制器34和处理器44,但是自主车辆10的实施例可以包括通过任何合适的通信介质或通信介质的组合进行通信并且协作以处理传感器信号、执行逻辑、计算、方法和/或算法且产生控制信号以自动控制自主车辆10的特征的任意数量的控制器34和处理器44。
在一个实施例中,自主驾驶代理1000负责以用于自主车辆10周围的特定环境状态的期望方式来控制自主车辆10的部件(下文中称为“驾驶动作”)。
为了为自主车辆10周围的特定环境选择一系列合适的驾驶动作,自主驾驶代理1000应当能够解决存在很大程度不确定性的一系列多体问题。具体地,在特定环境状态下自主车辆10周围的车辆的数量可以是高度可变的。这些周围车辆的几何配置以及这些周围车辆的未来移动也可以是高度可变的。如本文所使用,术语“环境状态”定义了自主车辆可从其传感器获得的信息的时间“快照”。
为了解决这种连续性决策问题,可以使用马尔可夫决策过程(MDP)。
普通的MDP定义了许多变量,诸如S、A、T、D以及R。在这里,S是一组环境状态,A是可以在每个状态中执行的一组动作(诸如驾驶动作),T是一组状态过渡概率(其定义了在执行状态sx中的动作ax时的状态过渡分布),D是初始状态分布(由此定义了初始环境状态s0),而R是奖励函数。奖励函数R可以表达为加权特征θ的线性或非线性组合,并且在自主驾驶应用中,奖励函数可以与期望的驾驶行为(诸如碰撞避免行为)相关联。
对于自主驾驶应用,加权特征θ可以对应于环境状态中的差异环境“特征”或“提示”,诸如自主车辆是否正在右侧车道中行驶,另一台车辆是否刚刚在自主车辆前方改变车道、附近车辆的速度等。
MDP“策略”π是从环境状态S到关于动作A的概率分布的映射。从状态s0开始然后通过随机状态序列s1、s2等进行到最终状态sgoal,通过考虑由特定策略π定义的动作a0、a1等可确定加权特征θ对该特定策略π的期望。可以针对多个策略π执行该加权特征期望计算。因为奖励函数R通常可表达为加权特征θ的线性组合,所以可根据这些加权特征θ来选择最大化奖励函数R的期望值的最优策略π。这种最优策略选择考虑了与驾驶相关联的固有不确定性-选择驾驶动作的策略以最大化R的预期值的累积(即,未来时间段内的预期奖励值最大化,从初始状态s0开始并进行到最终状态sgoal)。
然而,对于设计者来说“手工制作”奖励函数R的结构并不是最佳的,因为这可能导致MDP选择次优策略π。换句话说,无论MDP过程在为特定环境状态选择正确的策略π以便最大化特定奖励函数R的期望值方面有多准确,如果奖励函数R的结构最大化是不正确的,则可能会选择驾驶动作的不正确的策略π。
为了克服该问题并确保MDP有更高概率选择正确驾驶动作,可以在没有设定奖励函数R(MDP/R)的情况下定义MDP。然后可以向使用该MDP/R训练的代理呈现针对特定环境状态的人类专家驾驶行为的样本。基于MDP/R,所呈现的环境状态(包括环境特征)和所呈现的专家驾驶行为,代理必须确定策略π,该策略π由专家针对所呈现的环境状态选择的驾驶动作的序列最大化。
在一个实施例中,使用深度逆强化学习(DIRL)来完成该策略确定。在DIRL中,代理选择随机策略π,并且将每个策略与由专家的驾驶动作序列优化的奖励函数的初始“猜测”进行比较。然后,代理迭代地计算潜在的奖励函数R,其由专家的驾驶动作行为序列最大化到大于由代理确定的先前“最佳猜测”奖励函数的程度。以此方式,可以迭代地确定奖励函数的结构,并且可以从该确定的奖励函数中恢复专家的驾驶动作序列背后的潜在动机。
作为示例,在自主驾驶代理模块1000的训练期间,可以向自主驾驶代理模块1000呈现专家驾驶员在特定环境状态下减速的演示(例如,包括紧邻专家驾驶员前方的车辆快速减速的环境状态)。使用DIRL,自主驾驶代理1000将恢复奖励函数的结构(通过描述一系列驾驶动作A的策略π将最大化该奖励函数的累积,导致车辆以专家行为演示的方式降低车速),因此也恢复了专家驾驶员的潜在动机(避免与其它车辆发生碰撞)。奖励函数通常以张量的形式恢复。
图2示出了用于训练自主驾驶代理100的DIRL技术的实施例。如图2中所示,DIRL代理215被呈现有来自不同驾驶环境状态202中的多个专家驾驶员的多个驾驶行为演示200。在一个实施例中,DIRL代理215执行MDP/R过程以基于驾驶演示200的数据集来以奖励张量图220的形式恢复奖励函数R。该奖励张量图220将广义环境状态202与驾驶动作A的特征策略π相关联,该广义环境状态的特征在于广义环境状态202中的一些所关注特征θ,该特征策略π将最大化该广义环境状态202的预期奖励函数值。换句话说,奖励张量图220允许在任何给定的环境状态S中做出关于驾驶动作A的最佳策略的决策。
具体地,来自特定环境状态202(例如,第j个环境状态)的所有演示都可以结合到数据集Ωj中。在一个实施例中,该组演示将包括来自该第j个环境的所有演示特征权重w,使得:Ωj={w1j,w2j,…wnj},并且可以用于内插第j个环境中的演示器所遵循的策略π。该内插可以通过估计奖励函数近似值r来完成,该奖励函数近似值r是从所演示的专家行为x中提取的信息和加权特征θ的函数,使得r≈f(x,θ12,…,θn)。在一个实施例中,还可以使用通用值函数V(s0,sgoal)来更新奖励函数R,该通用值函数用于在给定初始状态s0和目标状态sgoal的情况下最大化奖励函数R的期望值。
以此方式,可以恢复特定环境202中的每个单独演示器所遵循的驾驶动作A的所确定的策略π,然后使用DIRL模块215来概括该策略π以恢复奖励张量图220。所恢复的奖励张量图220将导致自主驾驶代理模块1000能够为任何未来遇到的环境状态202确定驾驶动作A的优选策略π。
为了理解所恢复的奖励张量图220的配置背后的潜在动机,监督者可以通过驾驶演示标记呈现给DIRL模块215的某些特征。在所呈现的驾驶演示200中标记某些重要特征θ将允许监督者确定为什么驾驶代理以特定方式恢复奖励图。可以由监督者标记的重要特征θ的一个示例是车辆在自主车辆10前方急剧制动。所恢复的奖励图会奖励在这种环境状态下的规避操纵,由此向监督者指示规避操纵背后的潜在动机。
在另一个示例中,如果所呈现的环境状态202包含两台车辆,并且这两台车辆的几何配置导致所呈现的专家驾驶员行为降低车速,则监督者可以手动标记环境状态202以向DIRL代理215指示在所呈现的环境状态202中存在两台车辆并且这些车辆处于特定的几何配置。然后标记允许DIRL模块215识别导致专家驾驶员降低车速的特征θ。
标记训练数据是一个耗时的过程。对于经由使用DIRL代理的DIRL过程适当地恢复奖励张量图220的恢复背后的潜在动机所需的多个驾驶演示200中的每一个,需要大量的监督时间来标记多个环境状态202。
在一个实施例中,可以使用对抗训性训练程序来避免需要为DIRL代理215标记训练演示。图3示出了这种对抗训练程序的实施例。参考图3,对抗训练程序包括使用发生器模块300。如本文所使用,术语“发生器模块”是指给定从在传感器系统28中提取的传感器信息来产生环境解译302的学习任务的模块。对抗训练程序还包括使用鉴别器模块400。如本文所使用,术语“鉴别器模块”是指给定确定所产生的环境解译302是否对应于真实环境状态的学习任务的模块。
如图3中所示,可以将与不同环境202中的演示200相关的传感器信息发送到神经网络216。在一个实施例中,神经网络216从演示信息中提取诸如表达提示等信息。在一个实施例中,演示信息是来自光学相机的视频镜头的形式。在一个实施例中,神经网络216是深度卷积神经网络,并且由神经网络216输出的提取信息涉及来自光学相机的视频镜头的帧的高级特征识别。下面更详细地解释执行该高级特征识别的方式。
另外或替代地,演示信息可以是一系列LIDAR读数。另外或替代地,演示信息可以包括其它类型的传感器信息,诸如雷达、全球定位系统、热像仪、超声波传感器、惯性测量单元和/或其它类型的传感器数据。
由神经网络216从演示信息中提取的特征θ(诸如车辆位置、交通信号灯等)和其它环境表达提示可以针对DIRL代理215的MDP/R过程中的专家驾驶员行为来进行人工加权。该加权可以消除准确地感测环境并提供与对象的运动学相关联的特征、与交通标志相关联的规则等的需要。参考图3,在一个实施例中,来自演示200的信息经由神经网络216传输到DIRL代理215。另外,所记录的驾驶动作A的专家策略从专家车辆的致动器系统30的记录中恢复。在一个实施例中,DIRL代理215配置为使用提取的信息和驾驶动作的多个专家策略来恢复奖励图220。
在一个实施例中,提取的信息还被传输到发生器模块300。在一个实施例中,发生器模块300还包括深度卷积神经网络。发生器模块300配置为基于从神经网络216中提取的信息来产生所呈现的环境状态202的解译。
现在参考图4,呈现了关于发生器模块300如何配置为基于从神经网络216中提取的信息来产生所呈现的环境状态202的解译的细节。在一个实施例中,所产生的环境解译302是基于发生器函数G(z)。在一个实施例中,发生器模块300包括一系列隐藏的卷积层700、702、704、706(CONV层)。这些CONV层700、702、704、706中的每一个可以从来自神经网络216的提取的信息中逐渐提取更高级别的特征。在图4中所示的实施例中,使用四个隐藏的CONV层700、702、704、706。在一个实施例中,CONV层700、702、704、706都具有相同的步幅值。在另一个实施例中,CONV层700、702、704、706包括不同的步幅值。在图4中所示的实施例中,每个CONV层700、702、704、706具有步幅值2,使得在4个CONV层上,投射4×4×1024解译并将其重新整形为64×64×3解译。
在一个实施例中,基于从神经网络216中提取的信息,发生器模块300的最终CONV层706的输出对应于环境202的所产生的环境解译302。该环境解译302包括代理自己的“标记”程序-换句话说,发生器模块300通过环境解译产生过程来标记演示驾驶行为200。
返回参考图3,所产生的环境解译302然后被传递到鉴别器模块400。原始传感器信息(在一个实施例中,其是原始光学相机镜头)也被传递到鉴别器模块400。鉴别器模块400(在一个实施例中还包括神经网络)配置为将所产生的环境解译302与原始传感器信息中呈现的“真实”环境状态202进行比较。鉴别器模块400配置为基于鉴别器函数D(G(x(i)))来确定所产生的环境解译302是否与真实环境状态相关。该鉴别器函数可以是迭代函数。
在一个实施例中,并且如图3和4中所示,鉴别器模块400还可以被提供有从神经网络216中提取的信息。在该实施例中,鉴别器模块400配置为确定所产生的环境解译302是否不仅对应于总体上真实环境状态,而且还对应于被呈现有来自驾驶演示200的传感器信息的实际真实环境状态202。
如上所详述,鉴别器模块400还可以包括神经网络。在一个实施例中,鉴别器模块400可以在发生器模块300的反向“镜像”中包括一系列隐藏的卷积层(CONV层)。
在一个实施例中,发生器模块300和鉴别器模块400都经过训练以改进其学习目标。
换句话说,发生器模块300必须学会正确地执行两个任务。首先,发生器模块300必须学习能够从在神经网络216中提取的信息产生“真实”环境状态解译302。其次,发生器模块300必须能够产生与被传输到鉴别器模块400的原始传感器信息相关的环境解译302。鉴别器模块400必须学习执行正确地确定所产生的环境解译302是否与总体上真实环境状态相关的任务。另外,在一个实施例中,鉴别器模块400还必须学习执行正确地确定所产生的环境解译302是否与被呈现有原始传感器信息的环境状态相关的任务。
为了训练发生器模块300和鉴别器模块400以执行这些任务,将发生器模块300和鉴别器模块400训练为对手。具体地,发生器模块300给定了如下特定的学习目标:从将通过鉴别器模块400的鉴别测试的提取的信息产生环境解译302。鉴别器模块400分别被给定正确地确定所产生的环境解译302是否与真实环境状态相关的学习目标,或者在一个实施例中,被给定是否与被呈现有原始传感器信息的实际环境状态200相关的学习目标。
然后迭代地更新发生器模块300和鉴别器模块400。具体地,由“初始”发生器函数产生的环境解译302由“初始”鉴别器函数评估。基于确定初始鉴别器函数,然后例如通过使用损失或成本函数来更新发生器函数,使得发生器函数更可能从将通过“初始”鉴别器函数的鉴别测试的提取信息产生环境解译。
在一个实施例中,损失或成本函数是量化发生器模块300或鉴别器模块400的性能误差的函数。在一个实施例中,损失或成本函数可以确定所产生的环境解译302与预定的“理想的”真实环境解译之间的差异。在一个实施例中,损失或成本函数对于与所产生的环境解译相关联的变量是可区分的,使得可以经由梯度下降方法来最小化损失或成本函数中的误差。
当发生器模块300的发生器函数被更新到大多数所产生的环境解译“通过”鉴别器模块400的鉴别器函数测试的精确水平时,然后暂停发生器函数的更新。然后,例如通过使用另一个损失或成本函数来迭代地更新鉴别器模块400的鉴别器函数,使得鉴别器函数更可能正确地确定所产生的环境解译与真实环境状态相关。当鉴别器函数被更新/优化到某个精度水平时,暂停鉴别器函数的更新,然后基于改进的鉴别器函数来恢复发生器函数的更新,等等。
以此方式,鉴别器和发生器函数两者都被更新到发生器模块300的发生器函数几乎总是基于从神经网络216中提取的传感器信息来产生正确地对应于真实环境状态202的环境解译302的点。此时,可以认为发生器模块300和鉴别器模块400经过训练。
图5示出了示出发生器模块300和鉴别器模块400的对抗本质的数据流图。在图5的实施例中,演示信息200被传输到神经网络216并且还被传输到鉴别器模块400。鉴别器模块使用鉴别器函数将由发生器模块300产生的所产生的环境状态解译302与真实环境状态信息200进行比较。如果鉴别器模块的输出是所产生的环境解译302不对应于真实环境状态202,则鉴别器模块400拒绝所产生的环境状态解译302。然后,发生器模块300基于该拒绝来学习该特定解译的产生方法以某种方式存在缺陷,并且因此产生新的环境解译302,其包括关于拒绝的环境解译302的扰动。在一个实施例中,新环境解译302的产生包括蒙特卡罗式过程(Monte Carlo-style process)以产生扰动的新环境解译。
如果鉴别器模块400的输出是所产生的环境状态解译对应于真实环境状态解译,则鉴别器模块将真实环境状态和相关所产生的环境解译302存储到存储器。然后,使用所存储的真实环境状态和相关所产生的环境解译来训练鉴别器模块400以更好地鉴别所产生的环境解译,由此降低鉴别器函数引起“误报”的概率。
在该对抗训练程序的多次迭代之后,发生器模块300将被改进到大多数所产生的环境状态解译302将通过由改进的鉴别器模块400的改进的鉴别器函数所应用的比较测试的点(取决于所选择的培训标准)。然后可以将发生器模块300视为“经过训练”。
然后,经过训练的发生器模块300可以用于从神经网络216的提取信息产生准确的环境状态解译302。在实施例中,提取的信息取自所记录的人为驾驶数据。不需要记录的人为驾驶数据的特殊注释或标记以供经过训练的发生器模块300使用。以此方式,自主驾驶代理可以预测驾驶场景的类似人为解译,而不需要人为演示他将在这种情况下做什么或为什么这样做。
具体地,如图3中的虚线箭头所示,来自经过训练的发生器模块300的准确产生的环境解译302然后可以用作DIRL模块215的输入以用于执行上述DIRL学习过程。由于使用经过训练的发生器模块300,所呈现的专家驾驶演示不需要由监督者标记以在DIRL学习过程中使用。因而,可以很大程度上无监督的方式实现从多组驾驶演示200中恢复奖励张量图220。换句话说,恢复奖励张量图220所需的全部内容是专家驾驶行为演示200的数据集-不需要标记这些驾驶行为演示200。
在恢复奖励张量图220之后,结合所恢复的奖励图220的经过训练的自主驾驶代理可以随后部署在自主车辆10中。如图6和7中所示,自主车辆10可以被设置有传感器系统28,其可以包括光学相机。可以使用该传感器系统28来感测关于环境特征的环境状态信息202。可以使用神经网络216来提取关于环境的特征的信息。然后,自主驾驶代理216通过使用恢复的奖励图220来基于该提取的信息实施驾驶动作A的策略。还可以经由使用数据分离器模块219将提取的信息传递到经过训练的发生器模块300。经过训练的发生器模块300基于该提取的信息来产生对应于真实环境状态的环境解译302。然后可以将所产生的环境解译302存储在存储器401中,并且稍后用于理解对代理为特定环境状态解译选择驾驶动作的特定策略背后的原因的推理。换句话说,通过存取代理基于驾驶动作的策略的环境状态解译,可理解该环境状态解译的哪些特征θ使代理选择驾驶动作的特定策略。经过训练的鉴别器模块400也可以结合在车辆10中,并且如果需要,鉴别器模块400的输出也可以存储在存储器401中以便稍后更新鉴别器模块400。
对环境状态解译的哪些特征导致代理选择驾驶动作的特定策略的这种理解可以稍后用于代理的后续更新。具体地,代理可能已经响应于遇到代理先前未遇到的环境状态而选择了驾驶动作的意外策略。在这种情况下,可从所产生的环境解译确定新环境状态的哪些特征导致代理选择该驾驶动作的特定策略。如果所选择的策略是非期望的,则可以更新代理以确保在下次遇到类似环境状态时不选择非期望的策略。
另外,同样如图7中所示,经过训练的发生器模块300可以包括在自主车辆10中。在一个实施例中,鉴别器模块400也包括在自主车辆中。虽然鉴别器模块400可以在自主驾驶期间不主动区分所产生的环境解译,但是鉴别器模块的鉴别器函数将基于从发生器模块接收的所产生的环境解译和从传感器接收的真实环境状态做出的决策可以存储在存储器401中。然后,该存储器可以用于基于“使用中”的驾驶数据周期性地更新鉴别器函数(由此也更新发生器函数)。
为了总结上述训练过程,图8示出了学习过程的流程图。在步骤500处,从驾驶员演示200中提取信息。在一个实施例中,使用神经网络执行该提取。在步骤502处,将该信息传输到发生器模块300。在步骤504处,将真实环境状态传输到鉴别器模块400。在步骤506处,发生器模块300从提取的信息中产生环境状态解译。在步骤508处,训练发生器和鉴别器模块使得鉴别器学习以更好地鉴别所产生的环境解译与真实环境状态。在步骤510处,使用从经过训练的发生器中产生的环境状态解译,从驾驶员演示中恢复奖励图。可以通过使用DIRL代理215来恢复该奖励图220。
在各种实施例中,关于图1描述的自主车辆10可以适用于在某个地理区域(例如,城市、学校或商业园区、购物中心、游乐园,活动中心等)的出租车或班车系统的背景下或可以只需由远程系统管理。例如,自主车辆10可以与基于自主车辆的远程运输系统相关联。在各种实施例中,操作环境进一步包括经由通信网络与自主车辆10和/或远程运输系统进行通信的一个或多个用户装置。
通信网络可以根据需要支持在由操作环境支持的装置、系统和部件之间(例如,经由有形的通信链路和/或无线通信链路)的通信。例如,通信网络可以包括无线载波系统,诸如蜂窝电话系统,其包括多个手机信号塔(未示出)、一个或多个移动交换中心(MSC)(未示出)以及将无线载波系统与陆地通信系统连接所需要的任何其它联网部件。每个手机信号塔都包括发送和接收天线以及基站,其中来自不同手机信号塔的基站直接或经由诸如基站控制器等中间设备连接到MSC。无线载波系统可以实施任何合适的通信技术,包括(例如)诸如CDMA(例如,CDMA2000)、LTE(例如,4G LTE或5G LTE)、GSM/GPRS或其它当前或正涌现的无线技术等数字技术。其它手机信号塔/基站/MSC布置是可能的并且可以结合无线载波系统使用。例如,基站和手机信号塔可以共同位于相同站点处或它们可以远离彼此,每个基站可以负责单个手机信号塔或单个基站可以服务于各个手机信号塔,且各个基站可以联接到单个MSC,这里仅列举几种可能布置。
除包括无线载波系统外,可以包括呈卫星通信系统的形式的第二无线载波系统来提供与自主车辆进行的单向或双向通信。这可以使用一个或多个通信卫星(未示出)和上行链路传输站(未示出)来进行。单向通信可以包括(例如)卫星无线电服务,其中节目内容(新闻、音乐等)是由传输站接收、封装上传并且然后发送到卫星,从而向用户广播该节目。双向通信可以包括(例如)使用卫星以在车辆与站之间中继电话通信的卫星电话服务。除了或代替无线载波系统,可以利用卫星电话。
可以进一步包括陆地通信系统,其为连接到一个或多个陆线电话的常规陆基电信网络并且将无线载波系统连接到远程运输系统。例如,陆地通信系统可以包括诸如用于提供硬接线电话、分组交换数据通信和因特网基础设施的公共交换电话网(PSTN)。一段或多段陆地通信系统可以通过使用标准有线网络、光纤或其它光学网络、电缆网络、电力线、其它无线网络(诸如无线局域网(WLAN))或提供宽带无线接入(BWA)的网络或其任何组合来实施。另外,远程运输系统不需要经由陆地通信系统连接,反而可以包括无线电话设备使得其可以直接与无线网络(诸如无线载波系统)通信。
操作环境的实施例可以支持任意数量的用户装置,包括由一个人拥有、操作或以其它方式使用的多个用户装置。由操作环境支持的每个用户装置可以使用任何合适的硬件平台来实施。就此而言,用户装置可以任何常见外形规格来实现,包括但不限于:台式计算机;移动计算机(例如,平板计算机、膝上型计算机或上网本计算机);智能电话;视频游戏装置;数字媒体播放器;一件家庭娱乐设备;数码相机或视频摄影机;可穿戴计算装置(例如,智能手表、智能眼镜、智能服装);等。由操作环境支持的每个用户装置被实现为具有执行本文描述的各种技术和方法所需的硬件、软件、固件和/或处理逻辑的计算机实施的或基于计算机的装置。例如,用户装置包括可编程装置形式的微处理器,该微处理器包括存储在内部存储器结构中并且被施加来接收二进制输入以创建二进制输出的一个或多个指令。在一些实施例中,用户装置包括能够接收GPS卫星信号并且基于那些信号产生GPS坐标的GPS模块。在其它实施例中,用户装置包括蜂窝通信功能性使得该装置通过通信网络使用一个或多个蜂窝通信协议(如本文所讨论)执行语音和/或数据通信。在各种实施例中,用户装置54包括可视显示器,诸如触摸屏图形显示器或其它显示器。
远程运输系统包括一个或多个后端服务器系统(未示出),该后端服务器系统可以为基于云的、基于网络的或常驻在由远程运输系统服务的特定校园或地理位置。远程运输系统可以由现场顾问、自动顾问、人工智能系统或它们的组合来管理。远程运输系统可以与用户装置和自主车辆进行通信以安排乘车、派遣自主车辆等。在各种实施例中,远程运输系统存储诸如用户认证信息、车辆标识符、简档记录、行为模式以及其它相关用户信息等账户信息。
根据典型的用例工作流程,远程运输系统的注册用户可以经由用户装置创建乘车请求。乘车请求通常将指示乘客希望的乘车位置(或当前GPS位置)、期望目的地位置(其可以表示预定义的车辆停靠站和/或用户指定的乘客目的地)以及乘车时间。远程运输系统接收乘车请求、处理该请求,并且在指定的乘车地点且在适当的时间派遣一台选定的自主车辆来让乘客乘车(当一台车辆可用时和如果一台车辆可用)。远程运输系统还可以向用户装置产生并发送适当配置的确认消息或通知,以使乘客知道车辆正在途中。
如可明白的是,本文公开的主题提供了可以被认为是标准或基线的自主车辆和/或基于自主车辆的远程运输系统的某些增强的特征和功能。为此,自主车辆和基于自主车辆的远程运输系统可以被修改、增强或以其它方式补充以提供下面更详细描述的附加特征。
根据各种实施例,控制器实施自主驾驶系统(ADS)。控制器可以包括上述经过训练的自主代理。即,利用控制器的合适软件和/或硬件部件(例如,处理器和计算机可读存储装置)来提供与车辆10结合使用的自主驾驶系统。
虽然前述详细描述中已经提出了至少一个示例性实施例,但是应当明白的是,存在许多变化。还应当明白的是,示例性实施例仅仅是示例的并且不旨在以任何方式限制本公开的范围、适用性或配置。实情是,前文详细描述将给本领域技术人员提供用于实施示例性实施例或多个示例性实施例的便捷指引。应当理解的是,在不脱离所附权利要求书和其合法等同物的范围的情况下,可对元件的功能和设置作出各种改变。

Claims (10)

1.一种训练自主驾驶代理的计算机实施方法,所述方法包括以下步骤:
由处理器使用神经网络从驾驶行为的演示中提取信息;
由处理器从所述提取的信息中恢复奖励图;将所述提取的信息传输到发生器模块;
将与驾驶行为的所述演示相关联的真实环境状态和所述恢复的奖励图传输到鉴别器模块;
由处理器使用所述发生器模块从所述提取的信息中产生环境状态解译;
由处理器训练所述鉴别器模块以更好地确定所产生的环境状态解译是否对应于所述真实环境状态,同时由处理器训练所述发生器模块以产生所述鉴别器确定对应于所述真实环境状态的改进的环境状态解译,
其中,所述鉴别器模块使用鉴别器函数将由发生器模块产生的所产生的环境状态解译与真实环境状态信息进行比较,如果鉴别器模块的输出是所产生的环境解译不对应于真实环境状态,则鉴别器模块拒绝所产生的环境状态解译,然后,发生器模块基于该拒绝来学习,并且因此产生改进的环境状态解译,其包括关于拒绝的环境状态解译的扰动,其中,改进的环境状态解译的产生包括蒙特卡罗式过程以产生扰动的改进的环境状态解译,
当发生器模块的发生器函数被更新到大多数所产生的环境解译“通过”鉴别器模块的鉴别器函数测试的精确水平时,然后暂停发生器函数的更新;然后,通过使用另一个损失或成本函数来迭代地更新鉴别器模块的鉴别器函数,使得鉴别器函数更可能正确地确定所产生的环境解译与真实环境状态相关;当鉴别器函数被更新/优化到某个精度水平时,暂停鉴别器函数的更新,然后基于改进的鉴别器函数来恢复发生器函数的更新。
2.根据权利要求1所述的方法,其中使用卷积神经网络提取所述提取的信息。
3.根据权利要求1所述的方法,其中经由深度逆强化学习模块使用深度逆强化学习来恢复奖励函数。
4.根据权利要求1所述的方法,其中使用损失或成本梯度函数来执行所述鉴别器模块的训练。
5.根据权利要求1所述的方法,其中使用损失或成本梯度函数来执行所述发生器模块的训练。
6.根据权利要求1所述的方法,其中传感器包括光学相机、LIDAR系统和/或RADAR系统。
7.一种用于训练自主驾驶代理的系统,所述系统包括:
神经网络,其配置为从驾驶行为的演示中提取信息;
深度逆强化学习模块,其配置为从所述提取的信息中恢复奖励图;
发生器模块,其配置为基于所述提取的信息来产生环境状态解译;以及
鉴别器模块,其配置为至少部分地使用所恢复的奖励图来确定所产生的环境状态解译是否对应于与所述提取的信息相关联的真实环境状态,
其中,所述鉴别器模块使用鉴别器函数将由发生器模块产生的所产生的环境状态解译与真实环境状态信息进行比较,如果鉴别器模块的输出是所产生的环境解译不对应于真实环境状态,则鉴别器模块拒绝所产生的环境状态解译,然后,发生器模块基于该拒绝来学习,并且因此产生改进的环境状态解译,其包括关于拒绝的环境状态解译的扰动,其中,改进的环境状态解译的产生包括蒙特卡罗式过程以产生扰动的改进的环境状态解译,
当发生器模块的发生器函数被更新到大多数所产生的环境解译“通过”鉴别器模块的鉴别器函数测试的精确水平时,然后暂停发生器函数的更新;然后,通过使用另一个损失或成本函数来迭代地更新鉴别器模块的鉴别器函数,使得鉴别器函数更可能正确地确定所产生的环境解译与真实环境状态相关;当鉴别器函数被更新/优化到某个精度水平时,暂停鉴别器函数的更新,然后基于改进的鉴别器函数来恢复发生器函数的更新。
8.根据权利要求7所述的系统,其中所述鉴别器模块配置为基于损失或成本函数来迭代地改进对所产生的环境状态解译是否对应于真实环境状态的确定。
9.根据权利要求8所述的系统,其中所述发生器模块配置为迭代地改进所产生的环境状态解译的形式,使得所述鉴别器模块将基于损失或成本函数来确定所产生的环境状态解译对应于真实环境状态。
10.一种车辆,包括:
传感器,其配置为感测与所述车辆周围的环境状态的特征有关的信息;
神经网络,其配置为从所述传感器信息中提取信息;
经过训练的自主驾驶代理,其配置为基于所述提取的信息来确定驾驶动作的策略;以及
经过训练的发生器模块,其配置为基于所述提取的信息来产生环境状态解译,
经过训练的鉴别器模块,其配置为至少部分地使用所恢复的奖励图来确定所产生的环境状态解译是否对应于与所述提取的信息相关联的真实环境状态,
其中,所述鉴别器模块使用鉴别器函数将由发生器模块产生的所产生的环境状态解译与真实环境状态信息进行比较,如果鉴别器模块的输出是所产生的环境解译不对应于真实环境状态,则鉴别器模块拒绝所产生的环境状态解译,然后,发生器模块基于该拒绝来学习,并且因此产生改进的环境状态解译,其包括关于拒绝的环境状态解译的扰动,其中,改进的环境状态解译的产生包括蒙特卡罗式过程以产生扰动的改进的环境状态解译,
当发生器模块的发生器函数被更新到大多数所产生的环境解译“通过”鉴别器模块的鉴别器函数测试的精确水平时,然后暂停发生器函数的更新;然后,通过使用另一个损失或成本函数来迭代地更新鉴别器模块的鉴别器函数,使得鉴别器函数更可能正确地确定所产生的环境解译与真实环境状态相关;当鉴别器函数被更新/优化到某个精度水平时,暂停鉴别器函数的更新,然后基于改进的鉴别器函数来恢复发生器函数的更新。
CN201810986094.2A 2017-09-06 2018-08-28 用于自主驾驶应用的无监督学习代理 Active CN109460015B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US15/696,670 US10678241B2 (en) 2017-09-06 2017-09-06 Unsupervised learning agents for autonomous driving applications
US15/696670 2017-09-06

Publications (2)

Publication Number Publication Date
CN109460015A CN109460015A (zh) 2019-03-12
CN109460015B true CN109460015B (zh) 2022-04-15

Family

ID=65364039

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810986094.2A Active CN109460015B (zh) 2017-09-06 2018-08-28 用于自主驾驶应用的无监督学习代理

Country Status (3)

Country Link
US (1) US10678241B2 (zh)
CN (1) CN109460015B (zh)
DE (1) DE102018121595B4 (zh)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9511778B1 (en) * 2014-02-12 2016-12-06 XL Hybrids Controlling transmissions of vehicle operation information
US10740914B2 (en) 2018-04-10 2020-08-11 Pony Ai Inc. Enhanced three-dimensional training data generation
US11095360B2 (en) * 2018-11-26 2021-08-17 Eagle Technology, Llc Radio frequency (RF) communication system providing enhanced mobile vehicle positioning based upon reward matrices and related methods
US11184232B2 (en) 2018-11-26 2021-11-23 Eagle Technology, Llc Radio frequency (RF) communication system providing enhanced RF equipment configuration updates for mobile vehicles based upon reward matrices and related methods
DE102019203634A1 (de) * 2019-03-18 2020-09-24 Robert Bosch Gmbh Verfahren und Vorrichtung zum Ansteuern eines Roboters
DE102019208233A1 (de) * 2019-06-05 2020-12-10 Volkswagen Aktiengesellschaft Verfahren und Vorrichtung zum automatischen Ausführen einer Steuerfunktion eines Fahrzeugs
DE102019208234A1 (de) * 2019-06-05 2020-12-10 Volkswagen Aktiengesellschaft Verfahren und Vorrichtung zum automatischen Ausführen einer Steuerfunktion eines Fahrzeugs
EP3750765A1 (en) * 2019-06-14 2020-12-16 Bayerische Motoren Werke Aktiengesellschaft Methods, apparatuses and computer programs for generating a machine-learning model and for generating a control signal for operating a vehicle
EP3824419A1 (en) * 2019-09-23 2021-05-26 Advanced New Technologies Co., Ltd. System and method for routing optimization
CN110955239B (zh) * 2019-11-12 2021-03-02 中国地质大学(武汉) 一种基于逆强化学习的无人船多目标轨迹规划方法及系统
DE102019218129A1 (de) * 2019-11-25 2021-05-27 Volkswagen Aktiengesellschaft Verfahren und Vorrichtung zum Schätzen eines Ausgabekonfidenzwertes einer Ausgabe mindestens eines KI-Systems
EP3832420B1 (en) * 2019-12-06 2024-02-07 Elektrobit Automotive GmbH Deep learning based motion control of a group of autonomous vehicles
CN111026272B (zh) * 2019-12-09 2023-10-31 网易(杭州)网络有限公司 虚拟对象行为策略的训练方法及装置、电子设备、存储介质
CN111222630B (zh) * 2020-01-17 2023-07-25 北京工业大学 一种基于深度强化学习的自主驾驶规则学习方法
US20220067504A1 (en) * 2020-08-26 2022-03-03 Sony Corporation Training actor-critic algorithms in laboratory settings
US11738778B2 (en) * 2020-10-21 2023-08-29 GM Global Technology Operations LLC Facilitating transfers of control between a user and a vehicle control system
US11403496B2 (en) * 2020-11-04 2022-08-02 Silicon Laboratories Inc. Detecting anomalous events in a discriminator of an embedded device
US20220164647A1 (en) * 2020-11-24 2022-05-26 International Business Machines Corporation Action pruning by logical neural network
US12019584B1 (en) * 2020-12-03 2024-06-25 Nuro, Inc. Methods and apparatus for creating and utilizing snapshots of scenes
EP4250272A4 (en) * 2020-12-25 2024-01-17 NEC Corporation DRIVING EVALUATION SYSTEM, LEARNING DEVICE, EVALUATION RESULTS GENERATION DEVICE, METHOD AND PROGRAM
CN113173170B (zh) * 2021-01-08 2023-03-17 海南华天科创软件开发有限公司 基于人员画像个性化算法
US12017646B2 (en) * 2021-06-23 2024-06-25 International Business Machines Corporation Risk sensitive approach to strategic decision making with many agents
CN113822441B (zh) * 2021-09-29 2023-06-30 平安付科技服务有限公司 决策模型训练方法、装置、终端设备及存储介质
CN115107948B (zh) * 2022-06-24 2023-08-25 大连海事大学 一种高效强化学习自主船舶避碰方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9418059B1 (en) * 2013-02-28 2016-08-16 The Boeing Company Methods and systems for processing natural language for machine learning
CN106575382A (zh) * 2014-08-07 2017-04-19 学校法人冲绳科学技术大学院大学学园 通过密度比率估计的逆向强化学习
CN106970615A (zh) * 2017-03-21 2017-07-21 西北工业大学 一种深度强化学习的实时在线路径规划方法
CN107544516A (zh) * 2017-10-11 2018-01-05 苏州大学 基于相对熵深度逆强化学习的自动驾驶系统及方法

Family Cites Families (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8762305B1 (en) * 2010-11-11 2014-06-24 Hrl Laboratories, Llc Method and system for dynamic task selection suitable for mapping external inputs and internal goals toward actions that solve problems or elicit rewards
US20120233102A1 (en) * 2011-03-11 2012-09-13 Toyota Motor Engin. & Manufact. N.A.(TEMA) Apparatus and algorithmic process for an adaptive navigation policy in partially observable environments
WO2014190208A2 (en) * 2013-05-22 2014-11-27 Neurala, Inc. Methods and apparatus for early sensory integration and robust acquisition of real world knowledge
US20160210382A1 (en) 2015-01-21 2016-07-21 Ford Global Technologies, Llc Autonomous driving refined in virtual environments
AU2016297852C1 (en) * 2015-07-24 2019-12-05 Deepmind Technologies Limited Continuous control with deep reinforcement learning
CN107851216B (zh) * 2015-09-11 2022-03-08 谷歌有限责任公司 一种用于选择待由与环境进行交互的强化学习代理执行的动作的方法
US9829888B2 (en) 2015-11-17 2017-11-28 Ford Global Technologies, Llc Distinguishing lane markings for a vehicle to follow
CN108431549B (zh) * 2016-01-05 2020-09-04 御眼视觉技术有限公司 具有施加的约束的经训练的系统
JP6669897B2 (ja) * 2016-02-09 2020-03-18 グーグル エルエルシー 優位推定を使用する強化学習
US9802599B2 (en) 2016-03-08 2017-10-31 Ford Global Technologies, Llc Vehicle lane placement
DE112017002604T5 (de) 2016-06-21 2019-02-21 Sri International Systeme und Verfahren für das maschinelle Lernen unter Verwendung eines vertrauenswürdigen Modells
US10466714B2 (en) 2016-09-01 2019-11-05 Ford Global Technologies, Llc Depth map estimation with stereo images
EP3696737B1 (en) * 2016-11-03 2022-08-31 Deepmind Technologies Limited Training action selection neural networks
US9989964B2 (en) * 2016-11-03 2018-06-05 Mitsubishi Electric Research Laboratories, Inc. System and method for controlling vehicle using neural network
US11062207B2 (en) * 2016-11-04 2021-07-13 Raytheon Technologies Corporation Control systems using deep reinforcement learning
KR20220147154A (ko) * 2016-11-04 2022-11-02 딥마인드 테크놀로지스 리미티드 신경망을 이용한 장면 이해 및 생성
US10032111B1 (en) * 2017-02-16 2018-07-24 Rockwell Collins, Inc. Systems and methods for machine learning of pilot behavior
US10839291B2 (en) 2017-07-01 2020-11-17 Intel Corporation Hardened deep neural networks through training from adversarial misclassified data
US10402687B2 (en) * 2017-07-05 2019-09-03 Perceptive Automata, Inc. System and method of predicting human interaction with vehicles
US20190072978A1 (en) 2017-09-01 2019-03-07 GM Global Technology Operations LLC Methods and systems for generating realtime map information
US10649458B2 (en) * 2017-09-07 2020-05-12 Tusimple, Inc. Data-driven prediction-based system and method for trajectory planning of autonomous vehicles
US10254759B1 (en) * 2017-09-14 2019-04-09 Waymo Llc Interactive autonomous vehicle agent
US11093829B2 (en) * 2017-10-12 2021-08-17 Honda Motor Co., Ltd. Interaction-aware decision making
US20190113919A1 (en) * 2017-10-18 2019-04-18 Luminar Technologies, Inc. Controlling an autonomous vehicle using smart control architecture selection
US10732625B2 (en) * 2017-12-04 2020-08-04 GM Global Technology Operations LLC Autonomous vehicle operations with automated assistance
US11709462B2 (en) * 2018-02-12 2023-07-25 Adobe Inc. Safe and efficient training of a control agent
WO2019161300A1 (en) * 2018-02-18 2019-08-22 Nvidia Corporation Detecting objects and determining confidence scores
US10732639B2 (en) * 2018-03-08 2020-08-04 GM Global Technology Operations LLC Method and apparatus for automatically generated curriculum sequence based reinforcement learning for autonomous vehicles
WO2019191306A1 (en) * 2018-03-27 2019-10-03 Nvidia Corporation Training, testing, and verifying autonomous machines using simulated environments
US11169536B2 (en) * 2018-04-09 2021-11-09 SafeAI, Inc. Analysis of scenarios for controlling vehicle operations
US11169532B2 (en) * 2019-03-26 2021-11-09 Intel Corporation Computer-assisted (CA)/autonomous driving (AD) vehicle inference model creation

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9418059B1 (en) * 2013-02-28 2016-08-16 The Boeing Company Methods and systems for processing natural language for machine learning
CN106575382A (zh) * 2014-08-07 2017-04-19 学校法人冲绳科学技术大学院大学学园 通过密度比率估计的逆向强化学习
CN106970615A (zh) * 2017-03-21 2017-07-21 西北工业大学 一种深度强化学习的实时在线路径规划方法
CN107544516A (zh) * 2017-10-11 2018-01-05 苏州大学 基于相对熵深度逆强化学习的自动驾驶系统及方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Maximum Entropy Deep Inverse Reinforcement Learning;MarkusWulfmeier;《arXiv.org》;20160331;正文 *
基于分布式机器人体系结构的逆向增强学习技术;夏林锋;《中国优秀硕士学位论文全文数据库•信息科技辑》;20140115;正文第42-44页和第66页以及附图3.6-3.7 *
夏林锋.基于分布式机器人体系结构的逆向增强学习技术.《中国优秀硕士学位论文全文数据库•信息科技辑》.2014, *

Also Published As

Publication number Publication date
US10678241B2 (en) 2020-06-09
DE102018121595B4 (de) 2023-05-11
CN109460015A (zh) 2019-03-12
US20190072959A1 (en) 2019-03-07
DE102018121595A1 (de) 2019-03-07

Similar Documents

Publication Publication Date Title
CN109460015B (zh) 用于自主驾驶应用的无监督学习代理
US10845815B2 (en) Systems, methods and controllers for an autonomous vehicle that implement autonomous driver agents and driving policy learners for generating and improving policies based on collective driving experiences of the autonomous driver agents
US20200216094A1 (en) Personal driving style learning for autonomous driving
CN109949590B (zh) 交通信号灯状态评估
US10514697B2 (en) Vehicle remote assistance mode
CN109131346B (zh) 用于预测自主车辆中的交通模式的系统和方法
CN108981722B (zh) 用于自主驾驶的使用贝塞尔曲线的轨迹规划器
CN108628206B (zh) 道路施工检测系统和方法
US10591914B2 (en) Systems and methods for autonomous vehicle behavior control
US20200033869A1 (en) Systems, methods and controllers that implement autonomous driver agents and a policy server for serving policies to autonomous driver agents for controlling an autonomous vehicle
US20190061771A1 (en) Systems and methods for predicting sensor information
US20190332109A1 (en) Systems and methods for autonomous driving using neural network-based driver learning on tokenized sensor inputs
US20190072978A1 (en) Methods and systems for generating realtime map information
CN110758399B (zh) 用于预测实体行为的系统和方法
US20180079422A1 (en) Active traffic participant
CN112498349A (zh) 用于紧急车道改变的操纵计划
CN109509352A (zh) 针对禁行区的自主车辆的路径规划
US20200070822A1 (en) Systems and methods for predicting object behavior
US20210370984A1 (en) System and method for estimating take-over time
US20180079423A1 (en) Active traffic participant
CN109284764B (zh) 用于自主车辆中对象分类的系统和方法
US20230069363A1 (en) Methods and systems for dynamic fleet prioritization management
US20240053166A1 (en) Methods and systems for generating lane line and road edge data using empiracal path distributions
US20220261627A1 (en) Driving monitoring and scoring systems and methods
CN118053062A (zh) 使用多个神经网络执行电子设备或车辆的感知任务的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant