CN109407660A - 使用策略触发和执行的自主行为控制 - Google Patents
使用策略触发和执行的自主行为控制 Download PDFInfo
- Publication number
- CN109407660A CN109407660A CN201810896703.5A CN201810896703A CN109407660A CN 109407660 A CN109407660 A CN 109407660A CN 201810896703 A CN201810896703 A CN 201810896703A CN 109407660 A CN109407660 A CN 109407660A
- Authority
- CN
- China
- Prior art keywords
- vehicle
- strategy
- route
- state
- autonomous vehicle
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 claims abstract description 26
- 230000007613 environmental effect Effects 0.000 claims abstract description 21
- 230000008569 process Effects 0.000 claims abstract description 18
- 230000033001 locomotion Effects 0.000 claims description 14
- 239000013598 vector Substances 0.000 description 25
- 230000001133 acceleration Effects 0.000 description 6
- 230000004913 activation Effects 0.000 description 5
- 230000008859 change Effects 0.000 description 3
- 238000009825 accumulation Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/0088—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots characterized by the autonomous decision making process, e.g. artificial intelligence, predefined behaviours
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W30/00—Purposes of road vehicle drive control systems not related to the control of a particular sub-unit, e.g. of systems using conjoint control of vehicle sub-units
- B60W30/18—Propelling the vehicle
- B60W30/182—Selecting between different operative modes, e.g. comfort and performance modes
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0231—Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means
- G05D1/0234—Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using optical markers or beacons
- G05D1/0236—Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using optical markers or beacons in combination with a laser
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W30/00—Purposes of road vehicle drive control systems not related to the control of a particular sub-unit, e.g. of systems using conjoint control of vehicle sub-units
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W30/00—Purposes of road vehicle drive control systems not related to the control of a particular sub-unit, e.g. of systems using conjoint control of vehicle sub-units
- B60W30/10—Path keeping
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W30/00—Purposes of road vehicle drive control systems not related to the control of a particular sub-unit, e.g. of systems using conjoint control of vehicle sub-units
- B60W30/14—Adaptive cruise control
- B60W30/16—Control of distance between vehicles, e.g. keeping a distance to preceding vehicle
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W60/00—Drive control systems specially adapted for autonomous road vehicles
- B60W60/001—Planning or execution of driving tasks
- B60W60/0015—Planning or execution of driving tasks specially adapted for safety
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0212—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0212—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
- G05D1/0214—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory in accordance with safety or protection criteria, e.g. avoiding hazardous areas
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0212—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
- G05D1/0223—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving speed control of the vehicle
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0231—Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means
- G05D1/0246—Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using a video camera in combination with image processing means
- G05D1/0253—Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using a video camera in combination with image processing means extracting relative motion information from a plurality of images taken successively, e.g. visual odometry, optical flow
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0257—Control of position or course in two dimensions specially adapted to land vehicles using a radar
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0259—Control of position or course in two dimensions specially adapted to land vehicles using magnetic or electromagnetic means
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0276—Control of position or course in two dimensions specially adapted to land vehicles using signals provided by a source external to the vehicle
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/08—Computing arrangements based on specific mathematical models using chaos models or non-linear system models
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Remote Sensing (AREA)
- Radar, Positioning & Navigation (AREA)
- Aviation & Aerospace Engineering (AREA)
- Theoretical Computer Science (AREA)
- Transportation (AREA)
- Mechanical Engineering (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computational Mathematics (AREA)
- Algebra (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Analysis (AREA)
- Electromagnetism (AREA)
- Probability & Statistics with Applications (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Game Theory and Decision Science (AREA)
- Business, Economics & Management (AREA)
- Nonlinear Science (AREA)
- Human Computer Interaction (AREA)
- Optics & Photonics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Traffic Control Systems (AREA)
- Navigation (AREA)
- Control Of Driving Devices And Active Controlling Of Vehicle (AREA)
Abstract
一种车辆、系统和操作车辆的方法。在一个示例性实施例中,公开了一种用于操作自主车辆的方法。环境传感器获得车辆的外部实体的一个或多个参数。车辆的处理器在自主车辆处获得具有目的地的路线;构建路线的马尔可夫状态模型,其包括用于自主车辆的多个状态以及外部实体的一个或多个参数;产生用于导航该路线的多个驾驶策略;使用马尔可夫决策过程从多个驾驶策略中选择用于导航该路线的策略;以及在自主车辆处执行选定策略以将车辆沿着该路线朝向目的地导航。
Description
引言
本公开涉及一种用于导航自主车辆的系统和方法,并且更具体地涉及一种用于控制自主车辆的行为以导航通过选定路线的决策过程。
自主驾驶提供了在没有来自驾驶员或乘客的输入的情况下操作车辆的能力而不是提供目的地。通过意外的道路事件进行推理以便做出驾驶决策所需的处理水平超出了脚本规则和预定义知识库的能力。因此,期望提供一种展示社会可接受的驾驶行为的自主驾驶系统和方法。
发明内容
在一个示例性实施例中,公开了一种操作自主车辆的方法。该方法包括在自主车辆处获得具有目的地的路线;构建包括用于自主车辆的多个状态的路线的马尔可夫状态模型;产生用于导航该路线的多个驾驶策略,其中每个驾驶策略包括在多个状态中的进展;使用马尔可夫决策过程从多个驾驶策略中选择用于导航该路线的策略;以及在自主车辆处执行选定策略以将车辆沿着该路线朝向目的地导航。
当车辆导航该路线时更新车辆的状态,并且基于更新的车辆状态来确定更新的策略。确定多个驾驶策略中的每一个的预期奖励值,其中驾驶策略的奖励值指示驾驶策略在安全且平稳地推进自主车辆朝向目的地中的有效性,并且基于具有选定奖励值来选择策略。在一个实施例中,选定策略进一步包括具有最大预期奖励值但没有惩罚的策略。在自主车辆处执行选定策略包括在车辆处执行动作以根据该策略推进车辆朝向该路线的目的地。
车辆的状态包括自主车辆的姿态向量、运动学向量、环境信息向量以及致动器状态中的至少一个。环境信息向量包括环境中的外部实体和交通管制装置的参数。
在另一个示例性实施例中,公开了一种用于操作自主车辆的系统。该系统包括环境传感器和处理器,该环境传感器被配置为获得车辆的外部实体的一个或多个参数。该处理器被配置为在自主车辆处获得具有目的地的路线;构建路线的马尔可夫状态模型,其包括用于自主车辆的多个状态以及外部实体的一个或多个参数;产生用于导航该路线的多个驾驶策略,其中每个驾驶策略包括在多个状态中的进展;使用马尔可夫决策过程从多个驾驶策略中选择用于导航该路线的策略;以及在自主车辆处执行选定策略以将车辆沿着该路线朝向目的地导航。
处理器进一步被配置为在车辆导航该路线时更新车辆的状态,并且基于更新的车辆状态来确定更新的策略。该处理器进一步被配置为确定多个驾驶策略中的每一个的预期奖励值,其中驾驶策略的奖励值指示驾驶策略在推进自主车辆朝向目的地中的有效性;并且选择具有选定奖励值的策略。在一个实施例中,选定策略是具有最大预期奖励值但没有惩罚的策略。在一个实施例中,该处理器通过在车辆处执行动作以推进自主车辆朝向目的地来在自主车辆处执行选定策略。
车辆的状态包括自主车辆的姿态向量、运动学向量、环境信息向量以及致动器状态中的至少一个。环境信息向量包括环境中的外部实体和交通管制装置的参数。
在又一示例性实施例中,公开了一种自主车辆。该自主车辆包括环境传感器,该环境传感器被配置为获得车辆的外部实体的一个或多个参数。该处理器被配置为在自主车辆处获得具有目的地的路线;构建路线的马尔可夫状态模型,其包括用于自主车辆的多个状态以及外部实体的一个或多个参数;产生用于导航该路线的多个驾驶策略,其中每个驾驶策略包括在多个状态中的进展;使用马尔可夫决策过程从多个驾驶策略中选择用于导航该路线的策略;以及在自主车辆处执行选定策略以将车辆沿着该路线朝向目的地导航。
处理器进一步被配置为在车辆导航该路线时更新车辆的状态,并且基于更新的车辆状态来确定更新的策略。该处理器进一步被配置为确定多个驾驶策略中的每一个的预期奖励值,其中驾驶策略的奖励值指示驾驶策略在推进自主车辆朝向目的地中的有效性;并且选择具有选定奖励值的策略。在一个实施例中,选定策略是具有最大预期奖励值但没有惩罚的策略。
车辆的状态包括自主车辆的姿态向量、运动学向量、环境信息向量以及致动器状态中的至少一个。环境信息向量包括环境中的外部实体和交通管制装置的参数。
从以下结合附图的具体实施方式中,本公开的以上特征和优点以及其它特征和优点将容易显而易见。
附图说明
其它特征、优点和细节仅借助于示例出现在具体实施方式中,该详细描述参考附图,其中:
图1示出了相对于环境中的各种外部实体导航路线的车辆的平面图。
图2示出了包括用于车辆的说明性路线的区域的平面图;
图3示出了说明性路线的选定部分的第一人称视图;
图4示出了图3中所示的说明性路线的选定部分的第三人称视图;
图5示出了用于在状态之间移动的车辆状态和动作的表示,称为马尔可夫状态模型;
图6示出了包括叠加在图4的第三人称视图上的多个车辆状态的第三人称视图;
图7是说明用于使车辆导航路线的状态的策略或进展的示意图;
图8示出了在一个实施例中用于选择用于导航路线的策略的流程图;并且
图9示出了可以在车辆处采取的动作的说明性数据库。
具体实施方式
具体实施方式仅仅具有示例性本质并且不旨在限制本公开、其应用或用途。应当理解的是,在整个附图中,对应的附图标号指示相同或对应的部分和特征。
根据本公开的示例性实施例,图1示出了相对于环境100中的各种外部实体118导航路线的车辆102的平面图。在一个实施例中,车辆102是自主驾驶或自动驾驶车辆。外部实体118可以包括诸如其它车辆、行人、骑车人、动物、静止物体等物体。车辆102包括用于检测外部实体118的状态或参数(诸如它们的范围、速度、加速度等)的各种环境传感器104。示例性环境传感器104可以包括但不限于雷达、激光雷达、相机等。仅出于说明目的,外部实体118是车辆,并且环境传感器104是雷达系统,其通过从车辆102发射电磁脉冲114并从外部实体118接收电磁脉冲114的反射116来检测外部实体118,由此确定外部实体118的参数,诸如其相对速度、范围方位角位置等。
车辆102进一步包括一个或多个内部状态传感器106,其用于测量与车辆102的内部操作有关的参数。例如,内部状态传感器106可以包括制动传感器、加速度传感器、方向盘传感器或测量车辆102的运动参数(诸如推进、制动、转向等)的其它传感器。内部状态传感器106的测量值可以用于确定车辆102的当前状态。
车辆102进一步包括用于车辆102的操作的各种致动装置108。示例性致动装置108可以包括但不限于制动致动器、推进或节流阀致动器、转向致动器等。这些致动装置108使车辆102加速、减速、转向、停止、换挡、变向等。来自内部状态传感器106的测量值以及致动装置108的操作可以用于实现车辆102的自主驾驶。车辆102进一步包括通信模块110,其向远程位置或远程处理器120提供通信链路115以便发射和接收数据。在一个实施例中,远程处理器120可以通常根据处理器112的请求提供使车辆102进行导航的路线规划。
车辆102进一步包括执行本文公开的车辆导航方法的处理器112。处理器112接收路线并且使用如本文所讨论的马尔可夫决策过程来确定导航路线的方法。处理器112从环境传感器104接收外部实体118的参数,并且从内部状态传感器106接收车辆102的内部参数。处理器112根据这些参数来确定车辆102的状态的策略或进展,其使得自主车辆102能够导航路线。在一个实施例中,处理器112基于路线计划、关于车辆102和其外部实体118的环境的测量值以及关于车辆102的内部状态的测量值来导航车辆102。然后,处理器112控制车辆102的致动装置108以便在车辆102处提供一个或多个动作,以使车辆102在车辆102处的状态进展内移动,由此操作车辆102。在各种实施例中,处理器112周期性地重新计算状态进展。
图2示出了包括用于车辆102的说明性路线202的区域的平面图202。说明性路线202包括起点204和目的地206。路线202通常不是连接起点204和目的地206的直线。相反,路线202可以包括沿着现有道路和区域的路径定义的各种连续轨道。例如,说明性路线202包括中间点208、210和212。第一轨道202a将起点204与第一中间点208连接。第二轨道202b将第一中间点208与第二中间点210连接。第三轨道202c将第二中间点210与第三中间点212连接。第四轨道202d将第三中间点212与目的地206连接。在大多数情况下,轨道202a-d是线性路径。然而,这不是轨道202a-d的必要条件。另外,可以将轨道解析为子轨道直到实现线性路径的可接受的近似。
图3示出了说明性路线202的选定部分的第一人称视图300。第一人称视图300是指车辆102或车辆驾驶员所看到的视图。第一人称视图300示出了第一轨道202a、第一中间点208以及第二轨道202b。
图4示出了图3中所示的说明性路线202的选定部分的第三人称视图400。第三人称视图400示出了第一轨道202a、第一中间点208以及第二轨道202b。可以看出,第二轨道202b包括多个交通车道。
图5示出了用于在状态之间移动的车辆状态和动作的表示500,称为马尔可夫状态模型。圆圈表示车辆的状态。车辆的状态包括例如指示车辆的位置、定向等的车辆的姿态向量、指示车辆的速度、加速度或挡位的车辆的运动学向量、转向致动器的角度、车辆的节流阀水平、车辆的制动水平以及可以指示车辆的当前位置、运动和/或方向的任何其它参数。车辆的状态可以进一步包括为车辆环境所特有的信息,诸如车辆与交通标志的接近度、道路标记、外部实体的位置和速度等。动作由箭头示出并且将车辆从一个状态变为另一个状态。这些动作可包括但不限于加速、制动以及转向。例如,如果车辆处于特定状态,诸如空转,则可以对车辆执行加速动作以便将车辆的状态从空转改变为以选定速度向前移动。
在一个实施例中,车辆102的处理器112确定适合于使车辆102导航通过路线202的状态的进展。一旦接收到路线,处理器112就将路线解析为多个轨道。处理器112创建状态的策略或进展,并且覆盖与关于路线或轨道的策略对应的车辆102的预期进展。马尔可夫决策过程确定策略的预期奖励值,其指示策略在推进车辆102朝向其目的地206中的有效性。在一个实施例中,处理器112创建多个策略并且确定多个策略中的每个策略的预期奖励值。然后,处理器112选择具有最佳奖励值的策略,并且在车辆102处实施策略以将车辆102沿着路线202导航。
图6示出了包括叠加在图4的第三人称视图上的多个车辆状态的第三人称视图600。在每个状态下,车辆102基于更新的车辆状态并考虑环境内的外部实体的活动的更新测量值来重新计算并选择另一个策略。参考图6,第一组状态S1-S11是确定性的,因为车辆沿着直线202a行驶并且在第一中间点208处减速停车。一旦车辆进入交叉路口,由于第二轨道202b的三个车道以及其它车辆的存在,车辆102存在更多可能的状态。
因为第二轨道202b是多车道街道,所以需要关于在转弯时选择哪个车道的决策过程。向前观察第二中间点210,其中车辆102预期左转,关于何时以及如何进行变道以便在车辆102到达第二中间点210之前从右车道(从第一中间点208开始)变到左车道做出许多决策。该决策过程考虑了其它车辆的速度和位置。
参考图6,图5的马尔可夫状态模型的状态覆盖在图4的第三人称视图400上。状态由圆圈表示。每个状态示出在车辆102沿着路线的离散位置处。在每个离散位置处,可以进行车辆状态的可能进展的更新评估。如图6中所示,状态S1-S11控制车辆102的状态以便从起点204横穿第一轨道202a到第一中间点208。沿着第一轨道202a,存在车辆102的单一状态进展。然而,沿着第二轨道202b,存在许多可能的状态。例如,状态S11示出在沿着第二轨道202b的各个位置处。状态S12和状态S45被示出不止一次。马尔可夫决策过程应用于马尔可夫状态模型以便选择允许车辆穿过该路线的特定状态进展。
图7是说明用于使车辆102导航路线202的状态的策略或进展的示意图700。车辆102的状态由Si、Si+1、Si+2、......、Si+n指示,其中i是索引,而n是处理器希望向前看的步长数。车辆102的当前状态指示为Si。状态Si的特征在于各种向量,诸如姿态矩阵Pi、运动学向量Ki、环境信息向量Ei以及致动器状态向量Ai。然而,状态Pi不限于这些向量。姿态矩阵Pi指示车辆102的位置和定向。运动学向量Ki提供关于车辆102的运动学的信息,诸如车辆的速度、加速度、制动或减速、转向等。环境信息向量Ei提供关于车辆102的环境中的外部实体118的信息,诸如其它车辆的范围、定向、角度方向、速度、加速度、交通信号灯的状态、行人、骑车人、动物等的存在。致动器状态向量Ai提供关于车辆102的致动元件的信息。通过各种传感器702进行的测量来通知向量Pi、Ki、Ei、Ai中的每一个。在一个实施例中,姿态向量Pi和运动学向量Ki从内部状态传感器106(图1)接收测量值,并且环境信息向量Ei从环境传感器104接收测量值。另外,致动元件的状态可以由致动传感器提供。
策略πi(s)规定了在给定状态Si下要采取何种动作(即,行为控制命令)。从状态Si开始,向量Pi、Ki、Ei、Ai用于计算车辆102的下一状态Si+1。类似地,从预测状态Si+1计算状态Si+2。该过程继续直到计算出第n个状态Si+n。该过程可以重复多次以计算多个策略。对于每个策略πi(s),可以为策略计算预期奖励值。马尔可夫决策过程用于确定策略的值。该值表示从第一个状态Si开始并执行策略πi(s)所实现的长期折现的未来奖励。一般而言,该策略的可取性与该策略在推进车辆102朝向其目的地方面中的有效性有关。由马尔可夫决策过程提供的值函数表示从状态到值的映射,其中值表示通过遵循策略πi(s)以从当前状态进展到目的状态或者替代地从当前状态向前进展至预选定数量“n”个步长而获得的累积回报(即,折现的未来奖励)。在一个实施例中,处理器可以选择并实施具有最高奖励的策略(即,最佳地推进车辆102朝向其目的地)而不会招致任何处罚(诸如发生碰撞、违反交通规则、鲁莽驾驶、粗暴骑行、颠簸等)。一旦车辆移动到下一状态(例如,状态Si+1),就可以重复该过程以在给定车辆的下一状态的情况下确定合适的策略。
图8示出了在一个实施例中用于选择用于导航路线的策略的流程图800。流程图800在框802处开始。在框804处,处理器确定是否已输入有效的驾驶规划或目标。如果为“否”,则流程图800返回到框802。如果为“是”,则流程图800前进到框806。在框806中,处理器收集地图数据。在框808中,处理器确定地图数据是否可用于例如来自远程处理器的驾驶规划。如果远程处理器处没有地图数据可用,则可以查询不同的远程处理器以获取地图数据。如果在指定时间段内没有找到地图数据,则流程图800可能超时并返回到框802。然而,如果可以定位地图数据,则在框810处,将地图数据下载到车辆并下载到处理器之。处理器通过解析地图数据的路线平面来初始化车辆环境。在框812中,处理器构建表示环境的马尔可夫状态模型。在框814中,处理器对马尔可夫状态模型的类似状态进行优先级排序,注意状态和预期威胁的值函数。
在框816中,处理器开始用于导航路线的马尔可夫决策过程。在框818中,处理器执行策略迭代器,该策略迭代器执行步骤以选择用于在自主车辆处执行的策略。策略迭代器(框818)通过确定预期累积的折现未来奖励值来评估各种策略,该奖励值是通过从车辆的当前状态采取策略πi(s)规定的一个或多个动作而获得的。策略迭代器还在具有更高适当奖励值的策略空间内搜索另一个策略。在一个实施例中,策略迭代器818搜索原始子策略的数据库(框820),该原始子策略由预定致动命令组成,该预定致动命令用于在几个状态之间移动,但不用于在规划路线中的所有状态之间移动。然后,策略迭代器818使用预定致动命令/原始子策略创建更新的策略,并且确定更新的策略的预期奖励值。
图9示出了在说明性实施例中可以在车辆处采取的预定致动命令和/或原始子策略的数据库820的细节。数据库816的预定致动命令和/或原始子策略可以包括但不限于自适应巡航902、变道904、保持车道906、左转908、右转910、弯曲道路912、行人让行914、停止916、交叉路口让行918、汇入车流920、驶出车流922以及环形路进入924。策略迭代器818可以通过以有序进展组合来自数据库的这些预定致动命令/原始子策略中的一个或多个来创建策略,并且执行迭代以找到最优策略。
返回到图8的框818,策略迭代器818在策略空间中搜索可以从车辆的当前状态执行以使车辆到达其目的地的最优策略。替代地,可以选择使车辆移动通过选定数量“n”个步长的策略。策略迭代器818创建第一策略并且确定第一策略的第一预期奖励值。然后,策略迭代器818可以构建第二策略并且确定第二策略的第二预期奖励值,然后从第一策略和第二策略中选择具有更大预期奖励值的策略。可以重复该过程选定的迭代次数,或者直到达到选定的预期奖励值。在一个实施例中,策略迭代器818选择具有不会招致任何惩罚(诸如碰撞、交通违规等)的最佳或最大奖励的策略。
一旦策略迭代器818选择了策略,该过程就会流向框822的策略执行器。策略执行器822确定要在车辆的各种致动装置108处采取的动作,并且在框824中将动作发送到致动装置以便在车辆处执行策略。在框824处执行策略导致在框826处产生车辆的轨迹。而且,在框828中,将选定策略与来自外部环境的观察值(即,来自环境传感器的测量值)融合以便确定在车辆处于其当前状态下实施策略所产生的下一状态。在框830中,处理器确定下一状态是否是有效状态。如果为“否”,则处理器返回到框828以便将策略与当前观察值融合。如果为“是”(即,状态有效),则在框832中,处理器将车辆的状态更新为下一状态,包括车辆的内部状态参数以及环境和外部实体的参数。从框832的更新状态,流程图返回到策略迭代器框818,其中处理器可以前进到基于更新的状态来确定用于导航车辆的更新的策略集。
虽然已经参考示例性实施例描述了以上公开,但是本领域技术人员将会理解,在不脱离本公开的范围的情况下,可进行各种改变并且可用等同物替换其元件。另外,在不脱离本公开的实质范围的情况下,可进行许多修改以使特定的情况或材料适应本公开的教导。因此,希望本公开不限于所公开的特定实施例,而是将包括落入本申请范围内的所有实施例。
Claims (10)
1.一种用于操作自主车辆的系统,包括:
环境传感器,其被配置为获得所述车辆的外部实体的一个或多个参数;以及
处理器,其被配置为:
在所述自主车辆处获得具有目的地的路线;
构建所述路线的马尔可夫状态模型,其包括用于所述自主车辆的多个状态以及所述外部实体的所述一个或多个参数;
产生用于导航所述路线的多个驾驶策略,其中每个驾驶策略包括所述多个状态内的进展;
使用马尔可夫决策过程从所述多个驾驶策略中选择用于导航所述路线的策略;以及
在所述自主车辆处执行所述选定策略以将所述车辆沿着所述路线朝向所述目的地导航。
2.根据权利要求1所述的系统,其中所述处理器进一步被配置为在所述车辆导航所述路线时更新所述车辆的状态,并且基于所述更新的车辆状态来确定更新的策略。
3.根据权利要求1所述的系统,其中所述处理器进一步被配置为:
确定所述多个驾驶策略中的每一个的预期奖励值,其中驾驶策略的所述奖励值指示所述驾驶策略在推进所述自主车辆朝向所述目的地中的有效性;并且
选择具有选定奖励值的所述策略。
4.根据权利要求3所述的系统,其中所述选定策略进一步包括具有最大预期奖励值但没有惩罚的策略。
5.根据权利要求1所述的系统,其中所述处理器进一步被配置为通过在所述车辆处执行动作以推进所述自主车辆朝向所述目的地来在所述自主车辆处执行所述选定策略。
6.一种自主车辆,包括:
环境传感器,其被配置为获得所述车辆的外部实体的一个或多个参数;以及
处理器,其被配置为:
在所述自主车辆处获得具有目的地的路线;
构建所述路线的马尔可夫状态模型,其包括用于所述自主车辆的多个状态以及所述外部实体的所述一个或多个参数;
产生用于导航所述路线的多个驾驶策略,其中每个驾驶策略包括所述多个状态内的进展;
使用马尔可夫决策过程从所述多个驾驶策略中选择用于导航所述路线的策略;以及
在所述自主车辆处执行所述选定策略以将所述车辆沿着所述路线朝向所述目的地导航。
7.根据权利要求6所述的自主车辆,其中所述处理器进一步被配置为在所述车辆导航所述路线时更新所述车辆的状态,并且基于所述更新的车辆状态来确定更新的策略。
8.根据权利要求6所述的自主车辆,其中所述处理器进一步被配置为:
确定所述多个驾驶策略中的每一个的预期奖励值,其中驾驶策略的所述奖励值指示所述驾驶策略在推进所述自主车辆朝向所述目的地中的有效性;以及
选择具有选定奖励值的所述策略。
9.根据权利要求8所述的自主车辆,其中所述选定策略进一步包括具有最大预期奖励值但没有惩罚的策略。
10.根据权利要求6所述的自主车辆,其中所述处理器进一步被配置为通过在所述车辆处执行动作以推进所述自主车辆朝向所述目的地来在所述自主车辆处执行所述选定策略。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US15/680,599 US10474149B2 (en) | 2017-08-18 | 2017-08-18 | Autonomous behavior control using policy triggering and execution |
US15/680599 | 2017-08-18 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109407660A true CN109407660A (zh) | 2019-03-01 |
CN109407660B CN109407660B (zh) | 2022-02-18 |
Family
ID=65235272
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810896703.5A Active CN109407660B (zh) | 2017-08-18 | 2018-08-08 | 用于操作自主车辆的系统和自主车辆 |
Country Status (3)
Country | Link |
---|---|
US (1) | US10474149B2 (zh) |
CN (1) | CN109407660B (zh) |
DE (1) | DE102018119867B4 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111694351A (zh) * | 2019-03-15 | 2020-09-22 | 通用汽车环球科技运作有限责任公司 | 用于执行用于自主车辆的复合行为策略的方法和系统 |
CN112750298A (zh) * | 2020-12-17 | 2021-05-04 | 梁宏斌 | 一种基于smdp和drl的货车编队动态资源分配方法 |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7087654B2 (ja) * | 2018-05-14 | 2022-06-21 | トヨタ自動車株式会社 | 車外報知装置、及び車外報知方法 |
US20200310421A1 (en) * | 2019-03-26 | 2020-10-01 | GM Global Technology Operations LLC | Online driving performance evaluation using spatial and temporal traffic information for autonomous driving systems |
DE102019209117A1 (de) * | 2019-06-25 | 2020-12-31 | Continental Automotive Gmbh | Verfahren zur Lokalisierung eines Fahrzeugs |
DE102020113338A1 (de) | 2020-05-18 | 2021-11-18 | Bayerische Motoren Werke Aktiengesellschaft | Prädiktion eines Verhaltens eines Verkehrsteilnehmers |
US20240059170A1 (en) * | 2022-08-16 | 2024-02-22 | GM Global Technology Operations LLC | Dynamic multiple bi-directional supply and demand matching for ev charging |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7889065B2 (en) * | 2008-01-04 | 2011-02-15 | Smith Alexander E | Method and apparatus to determine vehicle intent |
JP2013041530A (ja) * | 2011-08-19 | 2013-02-28 | Fuji Xerox Co Ltd | 経路算出のためのプログラム及び経路算出装置 |
CN103996312A (zh) * | 2014-05-23 | 2014-08-20 | 北京理工大学 | 具有社会行为交互的无人驾驶汽车控制系统 |
CN104331953A (zh) * | 2014-10-29 | 2015-02-04 | 云南大学 | 一种基于物联网技术的汽车行为数据识别与管理方法 |
US20150345967A1 (en) * | 2014-06-03 | 2015-12-03 | Nissan North America, Inc. | Probabilistic autonomous vehicle routing and navigation |
KR20160048530A (ko) * | 2014-10-24 | 2016-05-04 | 국방과학연구소 | 자율 이동 차량의 경로 생성 방법 및 경로 생성 장치 |
US9349285B1 (en) * | 2014-12-01 | 2016-05-24 | Here Global B.V. | Traffic classification based on spatial neighbor model |
US9404761B2 (en) * | 2014-05-30 | 2016-08-02 | Nissan North America, Inc. | Autonomous vehicle lane routing and navigation |
CN106355948A (zh) * | 2015-07-17 | 2017-01-25 | 本田技研工业株式会社 | 转弯预测 |
CN106428000A (zh) * | 2016-09-07 | 2017-02-22 | 清华大学 | 一种车辆速度控制装置和方法 |
CN106740864A (zh) * | 2017-01-12 | 2017-05-31 | 北京交通大学 | 一种驾驶行为意图判断与预测方法 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FR2821217B1 (fr) * | 2001-02-21 | 2003-04-25 | France Telecom | Procede et systeme de codage-decodage iteratif de flux de donnees numeriques codees par combinaisons spatio-temporelles, en emission et reception multiple |
US20060129771A1 (en) * | 2004-12-14 | 2006-06-15 | International Business Machines Corporation | Managing data migration |
US7899761B2 (en) * | 2005-04-25 | 2011-03-01 | GM Global Technology Operations LLC | System and method for signal prediction |
JP4406436B2 (ja) * | 2006-04-26 | 2010-01-27 | 日本電信電話株式会社 | 自律移動ロボットの動作計画方法、自律移動ロボットの動作計画方法を利用した自律移動ロボットの制御方法、自律移動ロボットの動作計画装置、自律移動ロボットの動作計画プログラム及びその記録媒体、自律移動ロボットの制御プログラム |
JP2010287028A (ja) * | 2009-06-11 | 2010-12-24 | Sony Corp | 情報処理装置、情報処理方法、及び、プログラム |
US20110320113A1 (en) | 2010-06-25 | 2011-12-29 | Gm Global Technology Operations, Inc. | Generating driving route traces in a navigation system using a probability model |
US8793211B2 (en) * | 2010-08-19 | 2014-07-29 | International Business Machines Corporation | System and method for secure information sharing with untrusted recipients |
US20140302486A1 (en) * | 2011-09-02 | 2014-10-09 | President And Fellows Of Harvard College | Systems and methods for detecting biomarkers of interest |
DE102012214930B4 (de) | 2012-08-22 | 2015-03-12 | Damian Kupski | Fahrzeug |
US8965597B2 (en) * | 2013-02-26 | 2015-02-24 | Ford Global Technologies, Llc | Road grade auto-mapping |
JP6106106B2 (ja) | 2014-02-04 | 2017-03-29 | オートリブ日信ブレーキシステムジャパン株式会社 | 車両挙動制御装置 |
US10335091B2 (en) * | 2014-03-19 | 2019-07-02 | Tactonic Technologies, Llc | Method and apparatus to infer object and agent properties, activity capacities, behaviors, and intents from contact and pressure images |
-
2017
- 2017-08-18 US US15/680,599 patent/US10474149B2/en active Active
-
2018
- 2018-08-08 CN CN201810896703.5A patent/CN109407660B/zh active Active
- 2018-08-15 DE DE102018119867.1A patent/DE102018119867B4/de active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7889065B2 (en) * | 2008-01-04 | 2011-02-15 | Smith Alexander E | Method and apparatus to determine vehicle intent |
JP2013041530A (ja) * | 2011-08-19 | 2013-02-28 | Fuji Xerox Co Ltd | 経路算出のためのプログラム及び経路算出装置 |
CN103996312A (zh) * | 2014-05-23 | 2014-08-20 | 北京理工大学 | 具有社会行为交互的无人驾驶汽车控制系统 |
US9404761B2 (en) * | 2014-05-30 | 2016-08-02 | Nissan North America, Inc. | Autonomous vehicle lane routing and navigation |
US20150345967A1 (en) * | 2014-06-03 | 2015-12-03 | Nissan North America, Inc. | Probabilistic autonomous vehicle routing and navigation |
KR20160048530A (ko) * | 2014-10-24 | 2016-05-04 | 국방과학연구소 | 자율 이동 차량의 경로 생성 방법 및 경로 생성 장치 |
CN104331953A (zh) * | 2014-10-29 | 2015-02-04 | 云南大学 | 一种基于物联网技术的汽车行为数据识别与管理方法 |
US9349285B1 (en) * | 2014-12-01 | 2016-05-24 | Here Global B.V. | Traffic classification based on spatial neighbor model |
CN106355948A (zh) * | 2015-07-17 | 2017-01-25 | 本田技研工业株式会社 | 转弯预测 |
CN106428000A (zh) * | 2016-09-07 | 2017-02-22 | 清华大学 | 一种车辆速度控制装置和方法 |
CN106740864A (zh) * | 2017-01-12 | 2017-05-31 | 北京交通大学 | 一种驾驶行为意图判断与预测方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111694351A (zh) * | 2019-03-15 | 2020-09-22 | 通用汽车环球科技运作有限责任公司 | 用于执行用于自主车辆的复合行为策略的方法和系统 |
CN112750298A (zh) * | 2020-12-17 | 2021-05-04 | 梁宏斌 | 一种基于smdp和drl的货车编队动态资源分配方法 |
Also Published As
Publication number | Publication date |
---|---|
DE102018119867A1 (de) | 2019-02-21 |
DE102018119867B4 (de) | 2023-02-02 |
US10474149B2 (en) | 2019-11-12 |
US20190056737A1 (en) | 2019-02-21 |
CN109407660B (zh) | 2022-02-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109407660A (zh) | 使用策略触发和执行的自主行为控制 | |
US11467586B2 (en) | Gridlock solver for motion planning system of an autonomous vehicle | |
JP7150846B2 (ja) | 自律車両のための物体相互作用予測システムおよび方法 | |
US11754408B2 (en) | Methods and systems for topological planning in autonomous driving | |
US20220171390A1 (en) | Discrete Decision Architecture for Motion Planning System of an Autonomous Vehicle | |
KR20190030199A (ko) | 차량들의 감독 제어 | |
EP3549044A1 (en) | Vehicle control system and method of use | |
US11351996B2 (en) | Trajectory prediction of surrounding vehicles using predefined routes | |
CN113365895B (zh) | 车辆控制系统和方法 | |
US10546499B2 (en) | Systems and methods for notifying an occupant of a cause for a deviation in a vehicle | |
CN111409596A (zh) | 液滴路径预测 | |
US20230150510A1 (en) | Methods and systems for tracking a mover's lane over time | |
Kala et al. | Planning autonomous vehicles in the absence of speed lanes using an elastic strip | |
EP4278151A1 (en) | Methods and system for constructing data representation for use in assisting autonomous vehicles navigate intersections | |
JP7369078B2 (ja) | 車両制御装置、車両制御方法、及びプログラム | |
JP7362899B2 (ja) | 車両の走行支援方法及び走行支援装置 | |
JP7347252B2 (ja) | 車両行動評価装置、車両行動評価方法、および車両行動評価プログラム | |
CN116225026A (zh) | 自动驾驶车辆操作方法、电子设备以及计算机可读介质 | |
JP6798206B2 (ja) | 移動体の推奨ルート決定システム | |
US20230229826A1 (en) | Method for assigning a lane relationship between an autonomous vehicle and other actors near an intersection | |
US20230053243A1 (en) | Hybrid Performance Critic for Planning Module's Parameter Tuning in Autonomous Driving Vehicles | |
KR20240055023A (ko) | 자동차의 운행 환경을 모델링하는 방법 | |
Joshi et al. | Overview of Motion Planning Techniques for Ego Vehicle | |
CN118163812A (zh) | 用于针对预给定区域为自动化车辆提供驾驶策略的方法和设备 | |
CN116643565A (zh) | 计算机执行的方法、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |