CN113474231A - 使用神经网络对自主对象进行组合预测和路径规划 - Google Patents
使用神经网络对自主对象进行组合预测和路径规划 Download PDFInfo
- Publication number
- CN113474231A CN113474231A CN202080012391.2A CN202080012391A CN113474231A CN 113474231 A CN113474231 A CN 113474231A CN 202080012391 A CN202080012391 A CN 202080012391A CN 113474231 A CN113474231 A CN 113474231A
- Authority
- CN
- China
- Prior art keywords
- vehicle
- actions
- data
- computer
- implemented method
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013528 artificial neural network Methods 0.000 title claims description 27
- 238000013439 planning Methods 0.000 title description 32
- 230000009471 action Effects 0.000 claims abstract description 119
- 230000006870 function Effects 0.000 claims abstract description 50
- 238000010801 machine learning Methods 0.000 claims abstract description 36
- 238000003066 decision tree Methods 0.000 claims abstract description 29
- 238000006243 chemical reaction Methods 0.000 claims abstract description 16
- 238000000034 method Methods 0.000 claims description 74
- 230000033001 locomotion Effects 0.000 claims description 72
- 230000015654 memory Effects 0.000 claims description 12
- 230000001133 acceleration Effects 0.000 claims description 9
- 238000012512 characterization method Methods 0.000 claims description 7
- 238000012549 training Methods 0.000 description 106
- 230000008569 process Effects 0.000 description 38
- 230000008859 change Effects 0.000 description 21
- 238000003860 storage Methods 0.000 description 17
- 238000004422 calculation algorithm Methods 0.000 description 16
- 238000004891 communication Methods 0.000 description 15
- 238000011156 evaluation Methods 0.000 description 15
- 230000004044 response Effects 0.000 description 14
- 238000013459 approach Methods 0.000 description 13
- 238000012545 processing Methods 0.000 description 11
- 238000010200 validation analysis Methods 0.000 description 9
- 238000013179 statistical model Methods 0.000 description 8
- 230000006399 behavior Effects 0.000 description 7
- 238000013527 convolutional neural network Methods 0.000 description 7
- 238000013135 deep learning Methods 0.000 description 7
- 238000005457 optimization Methods 0.000 description 7
- 238000012360 testing method Methods 0.000 description 7
- 230000008901 benefit Effects 0.000 description 6
- 239000000047 product Substances 0.000 description 6
- 230000002787 reinforcement Effects 0.000 description 6
- 230000004913 activation Effects 0.000 description 5
- 210000002569 neuron Anatomy 0.000 description 5
- 238000012546 transfer Methods 0.000 description 5
- 238000007781 pre-processing Methods 0.000 description 4
- 210000004027 cell Anatomy 0.000 description 3
- 230000001413 cellular effect Effects 0.000 description 3
- 238000013501 data transformation Methods 0.000 description 3
- 238000007726 management method Methods 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 238000007792 addition Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 239000006227 byproduct Substances 0.000 description 2
- 238000002790 cross-validation Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 238000007667 floating Methods 0.000 description 2
- 238000007477 logistic regression Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000000844 transformation Methods 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- 230000003936 working memory Effects 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 208000027418 Wounds and injury Diseases 0.000 description 1
- 230000003213 activating effect Effects 0.000 description 1
- 230000003042 antagnostic effect Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000004888 barrier function Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 210000003792 cranial nerve Anatomy 0.000 description 1
- 230000006378 damage Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000009509 drug development Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000010348 incorporation Methods 0.000 description 1
- 208000014674 injury Diseases 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000002250 progressing effect Effects 0.000 description 1
- 238000013468 resource allocation Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000013515 script Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 238000009966 trimming Methods 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 230000036642 wellbeing Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/0088—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots characterized by the autonomous decision making process, e.g. artificial intelligence, predefined behaviours
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W60/00—Drive control systems specially adapted for autonomous road vehicles
- B60W60/001—Planning or execution of driving tasks
- B60W60/0027—Planning or execution of driving tasks using trajectory prediction for other traffic participants
- B60W60/00274—Planning or execution of driving tasks using trajectory prediction for other traffic participants considering possible movement changes
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W30/00—Purposes of road vehicle drive control systems not related to the control of a particular sub-unit, e.g. of systems using conjoint control of vehicle sub-units
- B60W30/08—Active safety systems predicting or avoiding probable or impending collision or attempting to minimise its consequences
- B60W30/095—Predicting travel path or likelihood of collision
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W50/00—Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
- B60W50/0097—Predicting future conditions
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0212—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
- G05D1/0221—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G08—SIGNALLING
- G08G—TRAFFIC CONTROL SYSTEMS
- G08G1/00—Traffic control systems for road vehicles
- G08G1/16—Anti-collision systems
- G08G1/161—Decentralised systems, e.g. inter-vehicle communication
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W2554/00—Input parameters relating to objects
- B60W2554/40—Dynamic objects, e.g. animals, windblown objects
- B60W2554/404—Characteristics
- B60W2554/4041—Position
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W2554/00—Input parameters relating to objects
- B60W2554/40—Dynamic objects, e.g. animals, windblown objects
- B60W2554/404—Characteristics
- B60W2554/4042—Longitudinal speed
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W2554/00—Input parameters relating to objects
- B60W2554/40—Dynamic objects, e.g. animals, windblown objects
- B60W2554/404—Characteristics
- B60W2554/4044—Direction of movement, e.g. backwards
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W2554/00—Input parameters relating to objects
- B60W2554/40—Dynamic objects, e.g. animals, windblown objects
- B60W2554/404—Characteristics
- B60W2554/4045—Intention, e.g. lane change or imminent movement
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Transportation (AREA)
- Mechanical Engineering (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Human Computer Interaction (AREA)
- Remote Sensing (AREA)
- Radar, Positioning & Navigation (AREA)
- Aviation & Aerospace Engineering (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Medical Informatics (AREA)
- Game Theory and Decision Science (AREA)
- Business, Economics & Management (AREA)
- Traffic Control Systems (AREA)
- Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
- Navigation (AREA)
Abstract
传感器测量有关要操纵的对象(例如车辆或机器人)附近的行动者或其他对象的信息。传感器数据用于确定可操纵对象的可能动作序列,以实现确定的目标。对于要考虑的每个可能的动作,确定附近行动者或对象的一个或更多个可能的反应。在一些实施例中,这可以采用决策树的形式,具有对应于当前对象的可能动作和一个或更多个其他车辆或行动者的可能反应动作的交替等级的节点。机器学习可用于确定概率,以及沿着决策树的路径(包括序列)投影出选项。价值函数用于为每个考虑的序列或路径生成值,并且选择具有最高值的路径用于确定如何导航对象。
Description
相关申请的交叉引用
本申请要求2019年2月5日提交的标题为“使用神经网络对自主对象进行组合预测和路径规划(COMBINED PREDICTION AND PATH PLANNING FOR AUTONOMOUS OBJECTS USINGNEURAL NETWORKS)”的美国申请号16/268,188的优先权权益,其全部公开内容出于所有目的通过引用并入本文。
背景技术
技术进步导致引入了用于许多不同用途的自主控制技术。例如,在自动驾驶汽车的情况下,这包括基于周围环境的状态确定车辆要采取的路径,如可以使用由各个汽车捕获的传感器数据来确定。虽然此类方法在许多情况下提供了足够的导航规划,但常规方法并未考虑附近车辆响应于被导航汽车采取的动作的可能反应。因此,路径规划不如应有的准确,并且当附近车辆具有某些类型的反应或运动时可能导致次优路径。
附图说明
将参照附图描述根据本公开的各个实施例,其中:
图1A、图1B和图1C示出了根据各个实施例的可以预测并用于路径规划的动作的示例序列。
图2A和图2B示出了根据各个实施例可以使用的示例规划网格。
图3示出了根据各个实施例的可用于确定最高值导航选项的示例决策树。
图4示出了根据各个实施例可以利用的用于确定对象的导航动作的第一示例过程。
图5示出了根据各个实施例可以利用的用于确定对象的导航动作的第二示例过程。
图6示出了其中可以实现各个实施例的方面的示例环境。
图7示出了根据各个实施例可以利用的用于训练图像合成网络的示例系统。
图8示出了根据各个实施例可以利用的示例统计模型的层。
图9示出了可以用于实现各个实施例的方面的计算设备的示例组件。
具体实施方式
在以下描述中,将描述各个实施例。出于解释的目的,阐述了具体配置和细节以提供对实施例的透彻理解。然而,对于本领域技术人员来说显而易见的是,可以在没有具体细节的情况下实践这些实施例。此外,可以省略或简化众所周知的特征以免混淆所描述的实施例。
根据各个实施例的方法提供对可控对象的导航,诸如自主车辆或机器人。这些对象可以至少部分自主或可控,并且能够部分地基于确定的路径、动作或目标以及本文讨论和建议的其他可能性进行操纵。可以使用一个或更多个传感器来感测关于要操纵的当前对象附近的对象(可操作的或其他的)的信息。如果可用,也可以从附近的对象获取信息。该信息可用于确定当前对象为实现确定的目标而采取的可能动作序列,例如朝着确定的目的地前进。对于当前对象的每个可能动作,可以确定附近对象(即,行动者)的一个或更多个可能响应或反应动作。在一些实施例中,这可以采用决策树的形式,具有对应于当前车辆的可能动作和一个或更多个其他车辆或行动者(actor)的可能响应动作的节点的交替等级(alternating level)。机器学习可用于确定概率,以及沿着决策树的分支和路径(包括序列)投影出选项。在一些实施例中,仅考虑具有至少最小概率的动作。在另一个实施例中,可以基于诸如相应的风险或损失量、好感度、乘员舒适度等因素来考虑动作。价值函数(valuefunction)可用于为每个考虑的序列或路径生成值,并且可以选择具有最高值的建议的导航路径。可以将建议的导航路径的至少第一动作提供给控制系统的优化器,该优化器可以使用第一动作来确定如何导航当前对象。所选路径和相关数据可用于更新用于该确定的一个或更多个机器学习模型,例如通过将相关数据发送到能够进一步训练模型的远程服务器,然后可将其用于未来确定。因此,在至少一些实施例中,转移学习可用于继续学习。与将预测和规划任务分开的常规方法相比,此类方法具有显著优势,常规方法使得预测独立于规划的路径,从而导致计划不佳。
各种其他功能可以在各个实施例内实现以及在本文别处讨论和建议。
如前所述,导航或操纵自主(或至少半自主)车辆的各种方法涉及车辆的某种类型的路径规划。车辆可具有如本文别处所讨论的各种传感器,如可包括相机、接近传感器、深度传感器、运动传感器、位置传感器、加速度计、电子罗盘等,其提供可被分析以确定车辆的可确定距离内的世界或环境的状态的数据。例如,在如图1A所示的状态100中,车辆102可能够收集和分析使车辆能够确定其在道路上的位置的环境数据。车辆102然后能够至少部分地基于所确定的目的地或目标来确定一组导航动作,以操纵车辆沿该道路到该目的地。这可以包括例如加速或减速、改变车道、转弯等。虽然可以在例如可以离散化的操纵空间中确定此类动作,但在一些实施例中也可以基于诸如环境的当前状态、目标和预测反应等因素预测汽车的最佳或优选轨迹,然后确定的操纵起作用以遵循最佳轨迹。这种方法可不使用基于树的方法,但可以作为广义决策过程的一部分。在一个实施例中,决策管理器可以预测一组离散的动作以及一组连续的最佳值,例如在一秒、两秒等内的最佳位置。在一些实施例中,可以将操纵空间中的离散化动作提供给优化器,然后优化器可以确定车辆在短时间尺度上实际执行的小调整,例如在接下来的50ms内。
然而,通常情况下,车辆必须考虑到车辆必须考虑的环境中具有其他对象。这可以包括,例如,考虑道路108上的其他车辆(例如,车辆104、106等),以及它们的相对速度和行驶方向等。在几乎所有情况下,车辆的目标是在实现其目标的同时防止与其他车辆发生碰撞。也可能存在各种其他目标,例如最大化车辆乘员的舒适度、最大化视野或体验、避免接近碰撞或震动动作等。这种方法可以包括确定避免与其他车辆碰撞的到目的地的路径。常规路径规划算法可以分析附近车辆104、106在道路108上的相对位置,预测这些附近车辆最可能的未来路径,并确定要采取的适当动作。这可以包括,如图1B中的示例状态120所示,车辆在两个车辆104、106之间变到右车道,变道后车辆与前后车辆之间有足够的空间。
然而,这样的路径规划没有考虑其他车辆104、106响应于将车辆102移动到右车道的尝试的可能或很可能的动作。例如,其他车辆106之一的驾驶员可能会看到车辆102的转向信号试图改变车道并加速,如图1C的状态140所示,以阻止车辆102能够在其他车辆106前面越过。另一驾驶员也可能采取其他动作,例如减速以腾出空间,或仅以当前速度和方向继续,这可能无法为车辆102按计划移动到右侧车道提供足够的空间。车辆106的未来位置的预测不独立于另一附近车辆102的动作,而是至少部分地依赖于这些动作。因此,车辆102的所规划的路径可能无法成功执行,并且车辆可能必须在一段时间后确定需要确定的另一路径或选项。这会导致延迟,从而导致车辆错过出口或至少无法以最佳方式朝着目标或目的地前进。
因此,根据各个实施例的方法可以尝试在路径规划过程中包括对其他行动者或对象(例如,车辆、行人、骑自行车者等)的预测。在尝试确定相应车辆接下来要采取的最佳行动时,可以考虑并考虑所有行动者的一系列可能行动。这可以包括,例如,响应于要导航的车辆可能采取的各种动作,使用树搜索来预测其他行动者的不同轨迹。这样的过程可以产生使用常规路径规划方法可能的更准确的规划。此外,在至少一些实施例中,其他行动者可以以多种方式表征,例如可以用于更准确地预测他们的行为的一组分类之一,因为激进的行动者可能会做出与谨慎或粗心的行动者不同的反应或移动。机器学习可用于改进行动者的表征(characterization),以及改进用于创建决策树或确定选项的每个序列的值的预测。在一些实施例中,行为的特征可能不是一组离散的分类,而是可以根据一组可确定的行为参数来确定。这可以包括具有一个或更多个标量参数来确定驾驶员的激进程度,例如,在其他此类选项中。
在一些实施例中,该过程可涉及预测或确定车辆或其他行动者的存在的概率,这些车辆或其他行动者被隐藏在传感器的视野之外,例如在被另一车辆遮挡的视野中。因此,该过程可以考虑汽车停在视线之外的位置的可能性,例如在十字路口或车道处或附近。这还可以包括人行横道上的行人、路边的自行车等的可能性。未来的预测可包括当前场景中不存在的行动者的出现。如果车辆间通信可用,该过程还可以接受当前车辆视野之外但附近的其他行动者或对象可见或可检测到的对象的信息。
在各个实施例中,车辆(诸如自主车辆)将在多个时间尺度上做出动作决策。例如,车辆可以考虑最外时间尺度上的路径,其可涉及到达目的地的整条路线的行驶小时数。在该时间尺度内确定的动作可包括进行特定转弯以采取特定路线,并且可包括正确准备转弯所需的变道。刚好在其下方的另一个时间尺度可能是五到十秒的时间尺度,这与停止平均自主车辆所需的时间相当(尽管该时间尺度可能会根据车辆类型、最大速度和路径条件等因素而适当变化)。由于这是在紧急情况下停止车辆所需的时间,因此车辆可以在该时间范围内制定具体计划。五到十秒的规划器为当前车辆的每一个“移动”输出目标位置。典型的移动可能花费250毫秒到几秒。在许多实施例中,车辆还将在第三更精细的时间尺度上进行确定,该时间尺度用于对车辆进行特定调整以遵循确定的路径并考虑附近环境的变化。在一些实施例中,控制器或优化器可以将五到十秒规划器的输出作为输入,并且使用该信息来确定要接管的动作,例如,接下来的50ms时间段。在至少一些实施例中,可以同时做出这些决策。这可以包括,例如,确定对转向、加速、制动或减速等的调整。然后,优化器可以使用来自车辆传感器的更新信息、最近的5到10秒计划以及其他此类相关信息,为每50毫秒的时间段做出新的决策。
如前所述,常规的5到10秒规划器使用独立于当前车辆的动作的其他车辆的动作的预测来对车辆要采取的动作做出决策。规划者可使用对附近行动者的运动的简单预测,但这种预测是基于诸如附近行动者的当前方向、位置、速度和加速度等因素,并没有考虑其中一些值可能会基于当前车辆的动作而改变,例如当前车辆是否改变车道或在其中一车辆前面停驶。例如,常规的机器人路径规划算法对当前车辆的可能移动或动作执行A*树搜索,独立于其他行动者由于这些移动或动作而可能发生的变化。也尝试了其他方法,例如,利用强化学习进行路径规划,但这些方法仍然独立于对其他附近或邻近行动者的反应的预测。
根据各个实施例的方法试图考虑其他行动者的预测轨迹,并且利用那些预测的轨迹来确定要导航的当前车辆的路径或动作序列。此外,对那些其他行动者的轨迹的预测可以考虑当前车辆在可能路径的各个阶段、点或等级(level)的移动或动作,从而可以考虑不同的可能反应。因此,可以考虑如果当前车辆改变车道,其他车辆可能会基于此改变其轨迹,然后这需要不同地考虑。代替使用常规方法(诸如强化学习或A*搜索)来管理路径预测,根据各个实施例的方法可以将路径规划视为多人合作游戏,其中玩家可能具有共同的目标并且基本上轮流实现这些目标,其中一名玩家在某个时间点采取的动作至少部分取决于其他玩家在之前的某个时间点所做过的事情。虽然每个行动者的最终目标可能不同,例如到达不同的目的地,但可能会有共同的目标,例如避免碰撞和尽可能高效地移动。
如果路径规划被视为多人游戏,其中每个行动者采取动作序列,其中这些动作可能至少部分取决于其他人的动作,那么在每个阶段、点、步骤或等级的可能动作集合可用于生成决策树,该决策树包括每个车辆的所有可能选项。在该时间段内可能动作的序列可以各自对应于从根节点到相应叶节点的树的路径。如本文所讨论的,然后可以利用价值函数来确定每条路径或动作序列的值。然后可以选择通向最高值叶节点的路径作为车辆的五到十秒路径。然后可以将所选路径的数据提供给优化器,例如,以确定车辆要采取的下一个动作或一组动作,例如转动车轮、加速、减速、激活转向信号等。价值函数可以使用如本文所讨论的多个因素来确定值,例如可以包括对会导致碰撞、违法或做出可能令乘客不愉快的快速加速变化的选项的惩罚。该函数还可包括对朝着目的地前进、成功改变车道、避免碰撞、提供平稳行驶和保持安全距离以及其他此类选项的奖励。可以使用考虑不同价值标准的各种不同价值函数,并且根据当前情况可以将不同权重应用于不同价值标准,这可以在至少一些实施例中受益于机器学习。
然而,考虑到所有潜在相关行动者的所有可能动作,可能会导致要处理大量数据,这可能需要大量资源,并可能导致更长的决策时间,这在许多情况下可能是不可取的。因此,可以进行近似或放弃选项,这对最终决策几乎没有影响。例如,当前道路上的空间可以划分为网格200或单元阵列,如图2A所示。例如,网格可以离散为每条车道固定数量的位置,并且具有可以是平均车辆尺寸的一部分的单元尺寸,例如平均车辆长度的一半。这种方法可用于确定给定行动者在给定时间点将占用哪些单元,这比尝试按实际位置跟踪所需的数据少得多。此外,每个行动者的选项集也可以离散化。图2B示出了可以根据各个实施例使用的示例移动选项网格250。应当理解,在各个实施例的范围内也可以使用具有其他选项的其他尺寸的网格。在该示例中,沿水平轴(图中)的移动选项是向左转(L)、直行(S)或向右转(R)。沿垂直轴(在图中平面内)的移动选项是加速(A)、保持当前速度(M)或减速(D)。这样,行动者的可能选项就可以简化为一组九个可能的动作,例如加速和右转(AR)、保持当前方向和速度(MS)等。在决策树的每一级,给定的节点可能有九个分支,每个分支对应一个潜在的运动选项。如本文所讨论的,可以为那些选项中的每一个确定概率,其可以是给定分支的价值确定的因素。
这种方法仍然可能导致非常大的决策树,以及大量的数据。因此,在至少一些实施例中,这些选项的子集可以被忽略或丢弃,其中这些选项不太可能影响对路径或动作的选择。虽然分析更多的行动者可能会导致更准确的预测和确定,但决策将受到附近或邻近车辆的最大影响,例如当前车辆正前方或后方的车辆,以及附近车道上可能会受到当前车辆任何变道的影响的车辆。因此,如果使用网格方法,只查看最多8个其他行动者可能是有意义的,包括网格中当前车辆的前面、后面、侧面和可能对角线的其他行动者。除了当前车辆由于它们的相对接近而可能只能收集有关这些行动者的合理数量的数据之外,这种方法可以大大减少要考虑的数据量和决策树的大小。此外,其他行动者的动作将更直接地影响一个或更多个被监控车辆,然后可用于调整当前车辆的路径确定。在一些实施例中,在确定中,诸如前面的汽车之类的汽车的权重可以更大,因为它的动作可能比后面和不同车道上的汽车对路径决策具有更大的影响。如果附近车辆的数据(或其他行动者)可用,并且可以获得它的下一步移动,然后不需要进行预测,并且在树中使用该等级的单个节点,该节点对应于该车辆的下一个动作。
类似地,在至少一些实施例中,如果各种路径选项具有非常低的概率值,例如小于最小概率阈值,则可以丢弃它们。然而,在其他情况下,低概率情况可能对规划很重要,因为结果可能非常消极,这可能最小化风险目标。在这些实施例中,可以有利地修剪具有标准或积极结果的低概率路径。在一个示例中,如果右车道中的汽车204没有在出口坡道或转弯选项上驶来,则汽车204将在下一个时间点沿该路径向右转弯的概率非常低。因此,所有涉及右转的选项都可以排除在考虑之外,从决策树中消除那些分支。此外,由于当前汽车202正好在汽车204的前方且要去其右侧,并且汽车204具有避免碰撞的目标,因此汽车204在下一个时间点加速和向左转弯的概率非常低。因此,这个路径选项也可被排除在考虑之外(至少出于路径规划的目的)。
然而,给定驾驶员选择任何路径选项的概率也可取决于驾驶员的一个或更多个方面。例如,酒后驾驶员采取任何动作的可能性更加均等。激进的驾驶员更有可能提高速度,未能保持安全距离,或试图阻止任何移动到该驾驶员前面的企图。谨慎的驾驶员可能更可能试图远离其他车辆,这意味着他们可能更有可能减速或变道远离车辆。也可以观察到各种其他特征或行为。因此,在至少一些实施例中可以尝试对附近汽车的驾驶员进行分类以改进概率确定。例如,这可以包括监控在一段时间内针对这些车辆捕获的数据,并使用该数据尝试执行准确的表征。在某些情况下,可以使用机器学习来尝试基于可用信息更准确地对驾驶员进行分类,例如速度、保持距离、变道频率、方向变化等。如果车辆能够通信,其他车辆提供的信息可能有助于分类。
然后结果可以是树结构300,例如图3的示例中所示。在该示例中,有很多等级的节点,每个非叶节点都有从该节点延伸出来的许多分支。每个分支对应于本文讨论的路径选项。在示例中,仅示出了单个路径的节点。根节点302表示车辆的当前位置,并且也可以引用其他信息,例如当前速度或加速度等。动作序列被认为是基于转弯的游戏,其中第一级的节点304对应于当前车辆(阴影)可以采取的动作。例如,这可以包括最多九个可能的运动动作(AR、MS等)的路径。
下一个较低等级的节点306将对应于一个或更多个其他车辆(阴影)响应于前一等级的父节点304中的当前车辆采取的动作而可以采取的选项。因此,如果本车如父节点304所示的向右移动,则给定车辆(阴影)作为响应可能会采取各种动作,在图示中该动作是略微减速以为本车提供更多空间来改变车道。其他选项可以包括其他车辆加速以试图阻止变道,或另一个变道,等等。其他汽车的这些潜在选项中的每一个然后可以用作到该等级的相应节点306的分支。可以响应其他车辆作为到下一级节点308的分支的可能动作来确定当前车辆的动作。在一些实施例中,该过程可以以与时间尺度相对应的多个等级继续,例如在一个实施例中每个等级对应于0.25秒的增量,达到五秒或十秒。最后一级的节点然后可以对应于各个路径末端的叶节点,在那里可以进行路径的值确定。应当理解,叶节点也可存在于其他等级,例如车辆可能到达目的地、碰撞或沿给定路径的其他端点。如上所述,可以确定最高值叶,并且该路径的相应动作序列被提供为五到十秒计划,在一些实施例中可以将其提供给优化器或控制器以确定下一个较短的时间间隔(例如下一个50ms)要采取的动作。优化器可以获取路径数据,平滑动作,并以更精细的粒度为车辆生成轨迹。在一些实施例中,由五到十秒规划器输出的时间间隔可以是可变的,并且可以至少部分地基于要采取的动作的类型或各种环境因素。
在一些实施例中,深度学习可用于使树更有效,如本文别处更详细讨论的。在一个实施例中,可以使用策略函数(策略网络的一部分)来预测每个等级的最佳或最可能的选项,因此不需要进一步探索所有选项。这可以使树更窄,需要考虑的路径更少。在另一个实施例中,深度学习可用于预测路径的价值函数,而不必一直将树扩展到各个叶节点。这可以使树更浅,而不必考虑每条路径的所有数据。在一些实施例中,可以执行优化以避免节点、路径或分支的重复。例如,向右移动并加速3次的序列可能与加速3次然后向右移动具有相同的结果。因此,这些路径可能能够坍塌为单个路径以供考虑。
此外,如本文别处提到的,至少一些对象可能能够传送与路径规划相关的数据。这可以包括例如车辆提供关于至少一个时间段或多个时间段的预期动作的数据。例如,车辆可能会传送它打算在一英里内右转,打算在接下来的半英里内移动到右侧车道,并将在接下来的50毫秒内开始向右移动。如果此信息可用,则此信息可用于提高车辆动作预测的准确性(因为车辆可能并不总是完全遵循其意图),从而可以提高针对当前对象的路径规划的准确性。任何这样的数据都可以提供给本文讨论的动作预测和/或路径规划模型。
在以下示例中提供了关于示例实现的更多细节。返回参考图1A,被导航的当前车辆102在中间车道中,并且在道路上有其他车辆接近当前车辆。当前车辆102想要改变到右车道,如可以由更高等级的规划系统命令的,以便在半英里内离开道路。为了确定要采取的适当动作或运动,当前车辆可以对某个规划范围进行搜索。在该示例中,过程在未来五秒内向前搜索,前两秒步长为0.25秒,接下来三秒步长为0.5秒,总共十步。可以生成一决策树,其中偶数等级对应当前汽车的潜在运动,奇数等级对应于附近其他行动者的响应运动。
如前所述,路径规划受益于对其他车辆运动的预测。可以在每个时间步长预测这些其他车辆的反应,以便基于当前可用的传感器数据计算“最佳”路径。可以确定使得能够完成车道改变的一系列“移动”。在这个例子中,可以确定车辆应该减速,向右移动,并发出预期向右移动的信号。预测可以表明后面和向右的汽车可能会减速,但会保持在右侧。在成功变道之后,网格可以重新以当前车辆102为中心。这种方法仅包括大约四个步骤,因为每个步骤涉及当前车辆的两个帧和其他一个或更多个车辆的相应响应。其他车可能不是这种合作式的。右侧车道的车可能不让车辆在预期位置变道。后面的车可能不会减速。当前车辆102需要在随后的规划周期中对这些可能性做出响应。
在每次树搜索期间,规划器可以为当前汽车在树的每个偶数等级上生成许多可能的移动。在该示例中,当前车辆从初始位置开始什么都不做(保持速度),可以向左转,可以在保持速度的同时向右转,或者在减速时向右转。在一些实施例中,可以使用“移动生成器”深度神经网络(DNN)来生成三个或四个要探索的“最高值”移动,这可以基于来自车辆运动数据的许多实例的训练。类似地,每个其他车辆或者行动者可以以多种方式做出回应。“动作生成器”DNN可以为非关键行动者生成最可能的运动,并为关键行动者(例如与当前车辆直接相邻的行动者)生成高达三或四个最可能的动作。在树的每一步,第二DNN可用于为该位置分配值。大的负值可以与任何接触相关联,较小的负值与太靠近或未能与另一个行动者或对象保持至少指定的距离或分离相关联。正值可以与实现各自的目标相关联,例如成功驶入右侧车道。
如前所述,不同的驾驶员可能会有不同的反应。因此,根据各个实施例的方法可以尝试通过观察车辆的行为来表征附近的其他车辆,这可对应于驾驶员的行为(或潜在的导航系统,假设一些可能被编程或导致行为不同)。一些行动者可被表征为“激进”,例如可能不太可能在任何想要的运动中合作,其他人可能会被不同地表征,例如“谨慎”、“合作”、“醉酒”、“胆怯”或“不稳定”。有连续的驾驶风格,其可以通过一组标量或值参数来举例说明,尽管在一些实施例中,将行动者分为离散数量的类型或分类允许使用少量的“运动生成器”,每个分类一个,以建议每个其他车辆将如何响应当前车辆的运动。在至少一些实施例中,标量值可以更通用并且更容易拟合。如上所述,在一些实施例中,这些运动生成器可以对应于能够基于所确定的分类以及当前传感器数据等推理动作的经训练的机器学习模型。通过对另一车辆的足够观察,运动生成器可以能够对该车辆进行“微调”,例如通过在标准类型的运动生成器之间进行插值。当前车辆可以通过将叶节点处计算的值备份到根节点正下方的节点来选择其运动。在一些实施例中,可以在当前车辆的节点处选择最高值,为其他车辆的节点选择最可能运动的加权平均值。
在决策树的每个偶数等级,可以使用运动生成器网络为当前对象(例如,车辆)建议最佳运动。网络可以接受当前占用网格以及相应的速度和目标作为输入。在一些实施例中,可以通过具有网格的多个副本来对速度进行编码,一个用于具有某车辆速度的对象,一个用于运动更快某量(例如,至少5mph)的对象,一个用于运动更慢某量(例如,至少5mph)的对象,依此类推。目标可以由规划层次结构的更高等级指定。在本示例中,目标是在某个目标距离内向右改变车道。其他目标可能是向左改变车道、离开(向左或向右)、最大化速度(在任何车道上)或在交叉路口转弯(向左或向右),等等。
在一些实施例中,运动生成器网络的输出是一组可能的运动。对网络的soft-max层进行阈值处理可用于为任意M选择最佳M运动。运动可以定义为方向和速度对,或方向和加速度对,等等。例如(右,刹车)可指示向右运动并减速。每个也可能有强度等级,例如“右++”表示强烈的右转,“制动--”表示非常轻的应用等。在一些实施例中,通过强化学习来训练运动生成器网络,以学习最有可能在给定的状态和给定的目标下提供最大“奖励”的运动。路径规划问题的基于直接强化学习的解决方案可以直接使用运动生成器来选择运动。在一些实施例中,可以用基于策略网络的树搜索来增强运动生成器,如本文所讨论的,以生成比直接使用强化学习方案更好的运动。树搜索可以用作多模态概率确定,其可以确定潜在响应动作的风险和不确定性。这种方法对于具有耦合自由度的环境可能是有益的,因为可对应于环境中行动者的反应性运动或动作。类似的运动生成器网络可用于其他车辆或行动者。为了限制搜索,在一些实施例中仅考虑关键车辆或行动者,但在其他实施例中,为了提高确定的准确性,可以考虑包括那些可能不可见的行动者或对象。如上所述,可以为非关键车辆确定单个最可能的运动,为“关键”车辆确定少量(例如两个或三个)可能的运动。可以训练多个运动生成器网络(或对一个网络进行“个性”输入)以对不同类型的驾驶员(正常、激进、谨慎、不专心等)进行建模。其他车辆可以基于观察进行分类,以决定使用哪个网络(或个性)对其进行建模。
如上所述,当前车辆路径确定系统或管理器可以选择最大化期望价值函数的运动或动作。可以利用各种价值函数,改变价值函数可以改变车辆的行为。示例价值函数可以包括各种项,如可包括目标,用于实现目标的小正值(例如在300米内进入右车道)。进度项可导致朝着目的地前进的非常小的正值。可以利用碰撞项,其中可以应用非常大的负值减少来接触对象。该值可以增加与接触速度(近似伤害)的平方成比例的量,并且可以根据对象的类型进行缩放,这样与人接触会导致非常大的值减少,而击中护栏的惩罚可能会显著降低。接近度项可导致负值被应用于太接近另一个对象,该值的大小对应于与另一个对象的接近度。平滑项可导致一小的负值被应用于极端控制运动,例如快速加速或猛踩刹车。合法项可导致不同负值被应用于违反法律,其大小取决于法律。例如,闯红灯可能会比超过限速1mph受到更严重的惩罚。可以选择惩罚,使得车辆能够在需要避免碰撞时违反法律(或至少某些法律)。在一些实施例中,能够被打破的法律还可以取决于碰撞的类型或碰撞的对象。
状态的值可以是为该状态计算的值加上未来状态的折扣值。在一些实施例中,可以通过将树遍历到选定的深度(例如到第10级)来计算状态(以及因此运动到该状态)的值。在树的叶子上,可以使用“价值网络”来估计对价值函数的未来贡献,该价值网络将当前状态和目标作为输入并返回一值。叶值将此未来估计与叶状态的计算值相加,以给出叶节点的值。在其他车辆运动的内部节点上,可以通过对由这些状态的概率加权的子状态的值求和来计算未来值。通过这种方式,根据其他车辆的运动,考虑了许多可能的未来。这与采用最小值的对抗性游戏形成对比。
可替代地,可以选择将另一车辆的值最大化的子状态的值,该车辆的价值函数是已知的。然而,采用加权概率使得能够避免其他车辆可能(即使不太可能)采取可能导致大的负奖励(例如,碰撞)的动作的状态。在当前车辆运动的内部节点处,可以通过在被评估的运动中取最大值来计算未来值。至少一些实施例中的路径确定系统将始终根据所选择的价值函数来选择具有最高值的运动。价值函数可以进行手动编程,指示车辆试图完成什么的声明。价值网络(针对每个个性)可以通过强化学习进行训练。如前所述,可以通过改变价值函数的项来训练价值和运动网络的不同“个性”。非常激进的驾驶员会对“进步”和“目标”有很高的值,而其他项的值会降低。谨慎的驾驶员则相反。
示例车辆可以利用规划器的层次结构。在顶层,路线规划器可以选择一路线以到达目标目的地,其对应于由交叉路口连接的一系列路段。这个等级的时间范围是几分钟到几小时,在这个示例中每个段至少需要几十秒。下一等级的规划将涉及车道选择和转弯,使车辆在沿路线的每个转弯时都在正确的车道上,然后执行转弯。这可能有类似的时间范围。上面描述的短程(即5s-10s时间尺度)规划器适用于下车道选择和转弯。例如,它以0.25秒的粒度确定自我车辆如何执行更高等级的目标。快速反应路径优化器(或其他控制器)在短程规划器以下的等级上运行。它可以每50毫秒运行一次,时间范围为1秒,并且可以快速响应紧急情况(例如,当孩子跑在车辆前面时应用刹车),并优化短程规划器选择的路径,绘制避开障碍物的平滑路径并确定精确的控制值。
各种场景可用于训练运动和价值网络,以及评估这些网络的有效性。这可以包括定向测试和随机测试。定向测试涉及旨在挑战系统的预先确定的场景。一种这样的场景涉及不合作的变道,其中车辆试图向左或向右变道,其中目标车道上具有密集的、“不合作”的其他车辆。另一个示例场景涉及并入密集交通,其中合并车道的长度和其他车辆的激进是可变的。其他可能的场景包括在环形交叉路口并入密集的交通、右转进入运动交通的车道或考虑突然的障碍物,例如汽车、自行车、行人或动物从左边或右边突然进入车辆前方的道路。在双车道情况下,到入口点的距离(或时间)以及迎面而来的车辆的存在和距离(或时间)可以变化。另一个测试场景可涉及暴露的障碍物,例如当前车辆前方的卡车突然驶出车道以暴露前方停着的汽车时,可以改变逃生的开放空间量。另一种情况涉及在迎面而来的交通情况下左转,在这种情况下,迎面而来的汽车之间的间距及其速度的统计数据可能会变化。
在一些实施例中,可以通过诸如自我游戏(self-play)之类的过程来训练运动和价值网络。自我游戏可以模拟N人游戏而不是2人游戏。许多模拟车辆被放置在模拟道路“网格”上。价值函数的权重可以针对每个车辆而改变,以提供个性的混合。每个车辆都可以像当前被控制的车辆一样运行,在每个时间步长执行自己的树搜索,并在不了解其他车辆的实际价值函数的情况下对其他车辆进行建模。简单的“路线(course)”可用于涉及合并、环形交叉路口、在迎面而来的交通时左转等的自我游戏。
图4示出了可以根据各个实施例使用的用于确定车辆的导航动作的示例过程400。应当理解,对于本文讨论的这个过程和其他过程,除非另有说明,否则在各个实施例的范围内,可以存在以类似或替代顺序或并行执行的附加、替代或更少的步骤。在该示例中,可以感测402环境中的一个或更多个车辆的位置。这可以包括,例如,确定一个或更多个其他车辆相对于要导航的第一车辆的相对位置。也可以确定其他信息,例如其他车辆的运动速度和方向、道路信号或交通灯的存在、刹车灯、转向信号、行人的存在、施工区域的存在、道路状况或天气状况,如可使用如本文所讨论的一个或更多个车辆传感器确定的或从其他适当源获得的。至少部分地基于所确定的车辆特征(characteristic),可以确定404可能动作的一个或更多个序列,其中这些序列包括第一车辆的可能动作和其他车辆的可能响应动作的交替等级。如上所述,在一些实施例中,可以仅考虑最可能的响应动作,在一些实施例中。可以使用该序列来确定406第一车辆的一个或更多个可能的导航路径,例如可以包括具有最小概率的动作序列。价值函数可用于为这些可能的导航路径中的至少一些计算408路径值。如前所述,价值函数可以包括诸如碰撞、接近度、进展等项,其可以用于确定各自的路径权重。然后可以选择410导航路径之一,其中该导航路径具有最高的计算路径值。可以将至少第一动作从所选择的导航路径提供412到第一车辆的控制器。该动作可以是一组离散的可能动作中的一个,这些动作可以提供给控制器的优化器,以确定要采取的用于操纵第一车辆的动作。然后可以使414第一车辆至少部分地基于第一动作进行操纵或以其他方式做出导航决策。
图5示出了根据各个实施例可以利用的用于确定车辆的导航动作的另一个示例过程500。在该示例中,确定502第一车辆和至少第二车辆的位置和运动数据。一个或更多个运动生成器(例如可以包括神经网络),可以用于生成504决策树,其中决策树包括第一车辆的动作和至少第二车辆的响应动作的交替等级。可以在各个等级确定506响应动作的概率,其中可以仅考虑具有至少最小概率的动作。在各个实施例中,这是使用策略网络执行的,该策略网络使用各种其他对象的表征来建议,使用接受表征分类、参数或标量的一个或更多个相关策略来确定那些车辆的可能响应动作。在各个实施例中,这可以将基于蒙特卡罗的方法近似为确定各种动作的概率。可以使用选定的价值函数来计算508决策树的每个路径的路径值。可以根据所选择的价值函数来选择510决策树的具有最高路径值的路径。该路径不仅基于第一车辆的目标,而且还基于至少第二车辆的可能响应动作。可以向被配置为管理车辆功能的优化器提供512来自建议路径的至少下一个动作。然后可以使514第一车辆如由优化器确定的那样操纵。
图6示出了可以用于实现各个实施例的方面的示例环境600。在许多实施例中,各种组件将全部包含在车辆602本身中,以避免安全敏感操作的网络或连接问题。在其他实施例中,至少一些组件可以在单独的系统中,但是可以通过有线或无线通信直接通信而不是通过网络传递通信。在一些实施例中,车辆602可以是自主车辆或可以至少部分自主控制的其他类型的车辆或对象。车辆可以是能够进行至少某种类型的运动或控制的任何合适的对象,如可以包括自主车辆、机器人、无人驾驶飞行器等。在一些实施例中,至少一些导航指令可以使用单独的用户设备来确定,例如可以包括台式计算机、笔记本计算机、智能电话、平板计算机、计算机工作站、游戏控制台等。车辆可以包括能够感测关于环境以及车辆附近的其他车辆、行动者或对象的数据的一个或更多个传感器604。这些传感器可以包括例如相机、红外传感器、运动检测器、加速度计、电子罗盘、LIDAR设备、雷达、计算机视觉模块、里程传感器等。如上所述,也可以从其他源获得数据,例如能够和/或被允许共享数据的附近车辆。数据可以被馈送到控制系统606,该控制系统606可以用于控制车辆,例如改变方向、加速或减速、激活转向信号、鸣喇叭或执行另一个这样的动作。在至少一些实施例中,控制系统可以包括用户界面,该用户界面使得诸如人类乘客之类的用户能够修改车辆操作的一个或更多个方面。车辆通常将包括一个或更多个计算机处理器608和存储器610,存储器610包括为了做出关于车辆的决策和/或制定那些决策以控制车辆的目的而可由处理器执行的指令。在至少一些实施例中,由传感器捕获的数据或捕获的关于车辆602的操作的数据可以存储到本地数据库612。
如上所述,在一些实施例中,所有确定都可以在可控对象(例如自主车辆)上进行。在一些实施例中,模型的训练可以远程执行,并且经训练的模型被提供给对象以供使用。在一些实施例中,可以远程执行长期规划,对车辆做出短时间尺度的决策。在其他实施例中,所有路径规划决策都可以使用由对象以及从其他对象或源收集的数据远程做出,并且这些决策被馈送到对象上的控制系统。也可以在各个实施例的范围内利用用于在对象和一个或更多个其他计算设备或系统之间划分功能的各种其他选项。
在一些实施例中,可以在客户端设备上处理由车辆602的传感器604捕获的传感器数据,以便确定如本文所讨论的导航动作。在其他实施例中,传感器数据可以通过至少一个网络614发送以由远程计算系统(如其可以是资源提供商环境616的一部分)接收。环境616中的软件架构也可以在车辆中或在单独的计算设备等上执行。至少一个网络614可以包括任何适当的网络,包括内联网、互联网、蜂窝网络、局域网(LAN)或任何其他这样的网络或组合,并且可以经由有线和/或无线连接实现网络上的通信。提供商环境616可以包括用于接收请求并响应于那些请求返回信息或执行动作的任何适当的组件。例如,提供商环境可包括Web服务器和/或应用程序服务器,用于接收和处理请求,然后响应于该请求返回数据或其他内容或信息。
所接收到的到提供商环境616的通信可以被接收到接口层618。接口层618可以包括应用程序编程接口(API)或其他暴露的接口,其使用户能够向提供商环境提交请求。该示例中的接口层618也可以包括其他组件,诸如至少一个Web服务器、路由组件、负载平衡器等。接口层618的组件可以确定请求或通信的类型,并且可以将请求引导到适当的系统或服务。例如,如果通信是用于针对特定类型的车辆训练运动神经网络的,则通信可以被引导到导航管理器320,其可以是使用提供商环境616的各种资源提供的系统或服务。请求可以被引导到训练管理器622,它可以选择适当的模型或网络,然后使用相关的训练数据624训练该模型。一旦网络被训练并成功评估后,网络可以被存储到模型存储库626,例如,其可以存储用于不同类型的车辆的不同模型或网络。如果接收到包括用于车辆602的传感器数据的请求,则该请求的信息可以被引导至树管理组件628,其可以获得相应的经训练网络。树管理组件628然后可以使用可能动作和可能反应的序列来生成决策树,并使用选定的价值函数生成每个序列的分数。如本文别处所讨论的,树搜索(包括对运动生成和值确定的推理)是与训练不同的过程。在许多情况下,树搜索和推理将在车辆上运行,而不是在单独的系统或云中运行。可以使用最高路径分数来选择路径,并且将下一个选项提供给优化器630,在至少一些实施例中,优化器630也可以位于车辆上。优化器630(也可以在控制系统606内部)可以提供导航动作,该导航动作可以用于控制车辆并使车辆沿着所选路径行进。
在各个实施例中,处理器608(或训练管理器622或树搜索模块628的处理器)将是中央处理单元(CPU)。然而,如前所述,此类环境中的资源可以利用GPU来处理至少某些类型请求的数据。拥有数千个核心的GPU旨在处理大量并行工作负载,因此在用于训练神经网络和生成预测的深度学习中变得流行。虽然使用GPU进行离线构建可以使能更快地训练更大和更复杂的模型,但离线地生成预测意味着不能使用请求时输入特征,或者必须为特征的所有排列生成预测并存储在查找表中以服务实时请求。如果深度学习框架支持CPU模式,并且模型足够小且简单,则可以以合理的延迟在CPU上执行前馈,那么CPU实例上的服务可以托管该模型。在这种情况下,训练可以在GPU上离线地完成,推理在CPU上实时完成。如果CPU方法不是一可行的选择,那么该服务可以在GPU实例上运行。但是,由于GPU与CPU相比具有不同的性能和成本特征,因此运行将运行时算法卸载到GPU的服务可能需要将其设计为与基于CPU的服务不同。
如上所述,各个实施例利用机器学习。例如,在处理器上开发的深度神经网络(DNN)已被用于各种用例,从自动驾驶汽车到更快的药物开发,从在线图像数据库中的自动图像标注到视频聊天应用程序中的智能实时语言转换。深度学习是一种模拟人脑神经学习过程的技术,不断学习,不断变得更聪明,并随着时间的推移更快地提供更准确的结果。孩子最初由成人教如何正确识别和分类各种形状,最终能够在没有任何指导的情况下识别形状。同样,深度学习或神经学习系统需要在对象识别和分类方面进行训练,因为它在识别基本对象、被遮挡对象等方面变得更智能、更高效,同时还为对象分配上下文。
在各个实施例中,可以训练中心模型并将其向外传播到各种车辆或对象以用于路径规划和预测。如上所述,在利用持续学习的实施例中,可以将来自车辆的数据提供回边缘服务器或中央服务器,例如,以进一步训练一个或更多个中心模型,然后可以将其传播到用于未来确定的各种车辆。
在最简单的层面上,人脑中的神经元查看接收到的各种输入,将重要性等级分配给这些输入中的每一个,并且将输出传递给其他神经元以进行操作。人工神经元或感知器是神经网络最基本的模型。在一个示例中,感知器可以接收一个或更多个输入,这些输入表示感知器正在训练以识别和分类的对象的各种特征,并且这些特征中的每一个都根据该特征在定义物体的形状的重要程度分配特定权重。
深度神经网络(DNN)模型包括多个连接感知器(例如,节点)的多层,这些感知器可以用大量输入数据进行训练,以快速高精度地解决复杂问题。在一个示例中,DLL模型的第一层将汽车的输入图像分解为各个部分,并寻找诸如线条和角度之类别的基本模式。第二层组装线条以寻找更高等级的图案,例如车轮、挡风玻璃和镜子。下一层识别车辆类别,最后几层为输入图像生成标签,识别特定汽车品牌的型号。一旦DNN被训练,DNN就可以部署并用于在称为推理的过程中识别和分类对象或模式。推理的示例(DNN从给定输入中提取有用信息的过程)包括识别存入ATM机的支票上的手写数字、识别照片中的朋友图像、向超过5000万用户提供电影推荐、识别和分类不同类型无人驾驶汽车中的汽车、行人和道路危险,或实时转换人类语音。
在训练期间,数据在前向传播阶段流经DNN,直到产生指示对应于输入的标签的预测。如果神经网络没有正确标记输入,则分析正确标签和预测标签之间的误差,并在反向传播阶段调整每个特征的权重,直到DNN在训练中正确标记数据集中的输入和其他输入。训练复杂的神经网络需要大量的并行计算性能,包括支持的浮点乘法和加法。推理的计算密集度低于训练,是一个对延迟敏感的过程,其中将经训练的神经网络应用于它以前从未见过的新输入,以对图像进行分类、转换语音并通常推断新信息。
神经网络严重依赖矩阵数学运算,而复杂的多层网络需要大量的浮点性能和带宽来提高效率和速度。拥有数千个处理核心,针对矩阵数学运算进行了优化,并提供数十到数百TFLOPS的性能,计算平台可以提供基于深度神经网络的人工智能和机器学习应用程序所需的性能。
图7示出了根据各个实施例的可用于对数据进行分类或生成推理的示例系统700。根据本文所包含的教导和建议,应当显而易见的是,也可以针对输入数据生成各种预测、标签或其他输出。此外,可以在本文讨论的各个实施例中使用有监督训练和无监督训练。在该示例中,提供一组经分类的数据702作为输入,以用作训练数据。经分类的数据可以包括针对其要训练统计模型的至少一种类型的对象的实例,以及识别该类型的对象的信息。例如,经分类的数据可能包括一组图像,每个图像都包含对象类型的表示,其中每个图像还包含标签、元数据、分类或其他识别在各自的图像中表示的对象类型的信息或与之相关联。各种其他类型的数据也可以用作训练数据,并且可以包括文本数据、音频数据、视频数据等。在此示例中,经分类的数据702作为训练输入提供给训练管理器704。训练管理器704可以是包括硬件和软件的系统或服务,例如执行训练应用程序的一个或更多个计算设备,用于训练统计模型。在该示例中,训练管理器704接收指示要用于训练的模型的类型的指令或请求。模型可以是可用于此类目的的任何适当的统计模型、网络或算法,例如可以包括人工神经网络、深度学习算法、学习分类器、贝叶斯网络等。训练管理器704可以从适当的存储库706中选择基本模型或其他未经训练的模型,并利用经分类的数据702来训练模型,生成可以用于对相似类型的数据进行分类的经训练的模型708。在不使用经分类的数据的一些实施例中,仍然可以根据训练管理器选择适当的基本模型来对输入数据进行训练。
可以以多种不同方式训练模型,这可能部分取决于所选模型的类型。例如,在一个实施例中,可以向机器学习算法提供一组训练数据,其中模型是通过训练过程创建的模型伪像。训练数据的每个实例包含正确答案(例如,分类),其可以被称为目标或目标属性。学习算法在训练数据中找到将输入数据属性映射到目标的模式,要预测的答案,并输出捕获这些模式的机器学习模型。然后可以使用机器学习模型来获得对未指定目标的新数据的预测。
在一个示例中,训练管理器可以从一组机器学习模型中进行选择,所述机器学习模型包括二进制分类、多分类和回归模型。要使用的模型的类型可以至少部分取决于要预测的目标的类型。用于二进制分类问题的机器学习模型可预测二进制结果,例如两个可能的类之一。学习算法(诸如逻辑回归)可用于训练二进制分类模型。针对多类别分类问题的机器学习模型允许针对多个类别生成预测,例如预测两个以上结果中的一个。多项式逻辑回归对于训练多类模型可能很有用。回归问题的机器学习模型可预测数值。线性回归对于训练回归模型很有用。
为了训练根据一个实施例的机器学习模型,训练管理器必须确定输入训练数据源以及其他信息,例如包含要预测的目标的数据属性的名称、所需的数据转换指令,以及训练参数以控制学习算法。在训练过程中,在一些实施例中训练管理器可以基于训练数据源中指定的目标类型自动选择适当的学习算法。机器学习算法可以接受用于控制训练过程和所得机器学习模型的某些属性的参数。这些在本文中称为训练参数。如果未指定任何训练参数,则训练管理器可以利用已知的默认值来很好地处理大范围的机器学习任务。可以为其指定值的训练参数的示例包括最大模型大小、在训练数据上的最大传递数目、随机播放类型、正则化类型、学习率和正则化量。可以指定默认设置,具有用于调整值以微调性能的选项。
最大模型大小是在训练模型期间创建的模式的总大小(以字节为单位)。默认情况下,可以创建指定大小的模型,例如100MB的模型。如果训练管理器无法确定足够的图案来填充模型大小,则可以创建较小的模型。如果训练管理器发现图案数量超出了指定大小所能容纳的数量,则可以通过修整对学习模型的质量影响最小的图案来强制实施最大截止。选择模型大小可以对模型的预测质量和使用成本之间的权衡进行控制。较小的模型可能会导致训练管理器移除许多模式以适应最大大小限制,从而影响预测的质量。另一方面,较大的模型查询实时预测的成本可能更高。较大的输入数据集不一定会导致较大的模型,因为模型存储图案而不是输入数据。如果模式少且简单,则生成的模型将很小。具有大量原始属性(输入列)或派生特征(数据转换的输出)的输入数据可能会在训练过程中找到并存储更多图案。
在一些实施例中,训练管理器可以对训练数据进行多次传递(pass)或迭代以发现模式。可以存在默认的传递次数,例如十次,而在一些实施例中,可以设置最大传递次数,例如高达一百次传递。在一些实施例中,可能没有最大集合,或者可能存在会触发训练过程结束的收敛准则或其他准则集合。在一些实施例中,训练管理器可以在训练期间监视图案的质量(即,模型收敛),并且当没有更多的数据点或图案需要发现时可以自动停止训练。仅具有少量观察结果的数据集可能需要更多的数据遍历才能获得更高的模型质量。较大的数据集可能包含许多相似的数据点,这可以减少对大量传递的需求。选择对数据的更多数据传递的潜在影响是,模型训练可能需要更长的时间,并且在资源和系统利用率方面会花费更多。
在一些实施例中,在训练之前或在训练的传递之间混洗(shuffle)训练数据。在许多实施例中,混洗是一种随机或伪随机混洗,用于生成真正的随机排序,尽管可能存在一些约束条件以确保不对某些类型的数据进行分组,或者如果存在这种分组,则可以对混洗的数据进行重新混洗等。混洗改变了将数据用于训练的序列或安排,以使训练算法不会遇到相似类型的数据的分组或连续太多观察的单一类型数据。例如,可以训练模型来预测产品类型,其中训练数据包括电影、玩具和视频游戏产品类型。上传之前,数据可能会按产品类型排序。然后,算法可以按产品类型按字母序列处理数据,首先仅看到一类型(诸如电影)的数据。模型将开始学习电影的模式。然后,模型将仅遇到用于不同产品类型(例如,玩具)的数据,并将尝试调整模型以适合该玩具产品类型,这可能会使适合电影的模式退化。电影到玩具类型的这种突然切换可能会产生无法学习如何准确预测产品类型的模型。在将训练数据集划分为训练子集和评估子集之前,在一些实施例中,可以执行混洗,从而对于两个阶段都利用相对均匀的数据类型分布。在一些实施例中,训练管理器可以使用例如伪随机混洗技术来自动混洗数据。
在一些实施例中,当创建机器学习模型时,训练管理器可以使用户能够指定设置或应用定制选项。例如,用户可以指定一个或更多个评估设置,以指示用于评估机器学习模型的预测质量的输入数据的要保留的一部分。用户可以指定方法,其指示哪些属性和属性转换可用于模型训练。用户还可以指定控制训练过程和所得模型的某些属性的各种训练参数。
一旦训练管理者确定完成了模型的训练,例如通过使用本文讨论的至少一个最终标准,就可以提供经训练的模型708,以供分类器714用于对未分类的数据712进行分类。然而,在许多实施例中,经训练的模型708将首先被传递到评估器710,该评估器可以包括在用于评估经训练的模型的质量(或其他方面)的至少一个计算资源上执行的应用程序或过程。对模型进行评估,以确定该模型在预测新数据和未来数据的目标时是否至少会提供性能的最低的可接受或阈值水平。由于将来的数据实例通常将具有未知的目标值,因此可能希望在已知目标答案的数据上检查机器学习的精度度量,并将该评估用作未来数据的预测精度的代理。
在一些实施例中,使用被提供用于训练的经分类的数据702的子集来评估模型。可以使用如上所述的混洗和拆分方法来确定该子集。此评估数据子集将标有目标,因此可以充当评估地面实况的资源。使用用于训练的相同数据来评估机器学习模型的预测精度是没有用的,因为对于记住训练数据而不是对其进行概括的模型可能会产生肯定的评估。一旦训练完成,则使用经训练的模型708来处理评估数据子集,并且评估器710可以通过将地面实况数据与该模型的相应输出(或预测/观察)进行比较来确定该模型的精度。在一些实施例中,评估器710可以提供摘要或性能度量,其指示预测值和真实值的匹配程度。如果经训练的模型不满足至少最小性能标准或其他这样的精度阈值,则可以指示训练管理器704进行进一步的训练,或者在某些情况下,尝试训练新的或不同的模型等。如果经训练的模型708满足相关标准,则可以提供经训练的模型以供分类器714使用。
当创建和训练机器学习模型时,在至少一些实施例中,可期望指定将导致能够进行最准确预测的模型的模型设置或训练参数。示例参数包括要执行(前向和/或反向)的传递数、正则化、模型大小和混洗类型。但是,如上所述,选择对评估数据产生最佳预测性能的模型参数设置可能会导致模型过度拟合。当模型存储了训练和评估数据源中出现的图案,但未能概括数据中的图案时,就会发生过度拟合。当训练数据包括评估中使用的所有数据时,经常会发生过度拟合。已经过度拟合的模型在评估期间可能会表现良好,但可能无法对新数据或其他经分类的数据做出准确的预测。为了避免选择过度拟合的模型作为最佳模型,训练管理器可以保留额外的数据以验证模型的性能。例如,训练数据集可分为60%用于训练,40%用于评估或验证,其可分为两个或更多阶段。在选择了最适合评估数据的模型参数,导致收敛于验证数据的子集(例如该验证数据的一半)之后,可以使用其余的验证数据执行第二次验证,以确保该模型的性能。如果此模型符合验证数据的期望,则此模型不会过度拟合数据。可选地,可以将测试集或保留集用于测试参数。使用第二个验证或测试步骤有助于选择适当的模型参数以防止过度拟合。但是,从训练过程中拿出更多数据进行验证会使可用于训练的数据更少。对于较小的数据集,这可能会出现问题,因为可能没有足够的数据可用于训练。在这种情况下的一种方法是执行交叉验证,如本文其他地方所述。
有许多度量或洞察可用于审查和评估给定模型的预测精度。一个示例评估结果包含用于报告模型总体成功的预测精度度量,以及帮助探索模型的精度超出预测精度度量的可视化。结果还可以提供查看设置得分阈值(如二进制分类)的影响的能力,并可以生成有关用以检查评估的有效性的标准的警报。度量和可视化的选择可以至少部分取决于要评估的模型的类型。
经过令人满意的训练和评估后,可以使用经训练的机器学习模型来构建或支持机器学习应用程序。在一个实施例中,构建机器学习应用程序是涉及一系列步骤的迭代过程。核心机器学习问题可以根据观察到的内容以及模型要预测的答案来构建。然后可以收集、清理和准备数据,以使其适合于通过机器学习模型训练算法使用的数据。可以对这些数据进行可视化和分析,以进行完整性检查,以验证数据质量和理解数据。这可能是原始数据(例如输入变量)和答案(例如目标)没有以可用于训练高度预测模型的方式表示的情况。因此,可能希望从原始变量构建更具预测性的输入表示或特征。可以将结果特征输入到学习算法中,以构建模型并根据从模型构建中保留的数据评估模型的质量。然后可以使用模型为新数据实例生成目标答案的预测。
在图7的示例性系统700中,在提供评估之后,将经训练的模型710提供给分类器714或使其可用,该分类器能够使用经训练的模型来处理未分类的数据。例如,这可能包括从用户或未分类的第三方接收到的数据,例如正在查询有关这些图像中所表示内容的信息的查询图像。未分类的数据可以由分类器使用经训练的模型进行处理,并且可以将产生的结果716(即,分类或预测)发送回相应的来源,或者进行其他处理或存储。在一些实施例中,并且在允许这种使用的情况下,可以将这些目前分类的数据实例存储到经分类数据存储库,可以由训练管理器将其用于经训练的模型708的进一步训练。在一些实施例中,将在新数据可用时对模型进行连续训练,但是在其他实施例中,将根据诸如数据集的大小或模型复杂度等因素,定期对这些模型进行训练,例如每天或每周一次。
分类器可以包括适当的硬件和软件,用于使用经训练的模型来处理未分类的数据。在某些情况下,分类器将包括一个或更多个计算机服务器,每个服务器具有一个或更多个能够处理数据的图形处理单元(GPU)。GPU的配置和设计可能使它们比CPU或其他此类组件更适合用于处理机器学习数据。在一些实施例中,可以将经训练的模型加载到GPU内存中,并且将接收到的数据实例提供给GPU以进行处理。GPU可以具有比CPU多得多的核心,并且GPU核心可以更不复杂。因此,给定的GPU可能能够通过不同的硬件线程同时处理数千个数据实例。GPU也可以配置为最大化浮点吞吐量,这可以为大型数据集提供明显的额外处理优势。
即使在使用GPU、加速器和其他此类硬件来加速诸如模型训练或使用此类模型进行数据分类之类的任务时,此类任务仍可能需要大量时间、资源分配和成本。例如,如果要使用100次传递来训练机器学习模型,并且数据集包括要用于训练的1,000,000个数据实例,则每次传递都需要处理所有百万个实例。架构的不同部分也可以由不同类型的设备支持。例如,可以在逻辑上集中的位置处使用一组服务器来执行训练,如可以作为服务提供的那样,而原始数据的分类可以由这种服务或在客户端设备上以及其他这样的选项来执行。在各个实施例中,这些设备也可以由同一实体或多个实体拥有、操作或控制。
图8示出了根据各个实施例的可以被利用的示例统计模型800。在该示例中,统计模型是人工神经网络(ANN),其包括多个节点层,包括输入层802、输出层806和中间节点的多个层804,通常称为“隐藏”层,因为内部层和节点通常在常规神经网络中不可见或不可访问。如本文其他地方所讨论的,还可以使用其他类型的统计模型,以及包括节点和层的其他数量或选择的其他类型的神经网络,等等。在该网络,给定层的所有节点都互连到相邻层的所有节点。如图所示,中间层的节点然后将分别连接到两个相邻层的节点。在某些模型中,节点也称为神经元或连接的单元,节点之间的连接称为边缘。每个节点都可以为接收到的输入执行一功能,例如通过使用指定的功能。节点和边缘可以在训练过程中获得不同的权重,并且节点的各个层可以对接收到的输入执行特定类型的转换,在训练过程中还可以学习或调整这些转换。学习可以是有监督的学习,也可以是无监督的学习,这可能至少部分取决于训练数据集中包含的信息类型。可以利用各种类型的神经网络,例如可以包括卷积神经网络(CNN),所述卷积神经网络(CNN)包括许多卷积层和一组池化层,并已被证明对诸如图像识别的应用程序是有益的。由于要确定的参数数量相对较少,因此CNN比其他网络也更易于训练。
在一些实施例中,可以使用各种调整参数来训练这种复杂的机器学习模型。选择参数、拟合模型和评估模型是模型调整过程的一部分,通常称为超参数优化。在至少一些实施例中,这种调整可以包括对基础模型或数据进行内省。在训练或生产设置中,稳健的工作流程对于避免超参数的过度拟合非常重要,如本文其他地方所述。交叉验证和向训练数据集添加高斯噪声是避免对任何一个数据集过度拟合的有用技术。对于超参数优化,在一些实施例中,可能需要保持训练集和验证集固定。在一些实施例中,可以在某些类别中调整超参数,例如可以包括数据预处理(换句话说,将单词转换为向量),CNN架构定义(例如,过滤器尺寸、过滤器数量),随机梯度下降参数(例如学习率),正则化(例如丢弃概率)以及其他此类选项。
在示例预处理步骤中,可以将数据集的实例嵌入到特定大小的较低维空间中。该空间的大小是要调整的参数。CNN的架构包含许多可调参数。过滤器尺寸的参数可以表示信息的解释,该信息与将要分析的实例的大小相对应。在计算语言学中,这称为n-gram大小。示例CNN使用三种不同的过滤器尺寸,它们代表了可能不同的n-gram大小。每个过滤器尺寸的过滤器数量可以对应于过滤器的深度。每个过滤器都尝试学习与实例结构不同的内容,例如文本数据的句子结构。在卷积层中,激活函数可以是整流线性单位,并且池类型设置为最大池。然后可以将结果串联到一维向量中,最后一层完全连接到二维输出上。这对应于可以应用优化功能的二进制分类。一种这样的功能是梯度下降的均方根(RMS)传播方法的实现,其中示例超参数可以包括学习率、批大小、最大梯度法线和历元。神经网络、正则化可能是一个非常重要的考虑因素。如所述,在一些实施例中,输入数据可以是相对稀疏的。在这种情况下,主要的超参数在倒数第二层处可以被丢弃,这表示一定比例的节点在每个训练周期不会“触发”。示例训练过程可以基于对先前配置的性能的反馈来建议不同的超参数配置。可以使用建议的配置来训练该模型,可以在指定的验证集上进行评估,并可以进行性能报告。可以重复此过程,例如权衡探索(了解更多有关不同配置的信息)和开发(利用先前的知识以获得更好的结果)。
由于训练CNN可以并行化并且可以利用GPU支持的计算资源,因此可以针对不同场景尝试多种优化策略。复杂的场景允许调整模型架构和预处理以及随机梯度下降参数。这扩展了模型配置空间。在基本情况下,仅调整预处理和随机梯度下降参数。与基本方案相比,在复杂方案中可以有更多的配置参数。可以使用线性或指数步数执行关节空间的调整,并通过模型的优化循环进行迭代。这样的调整过程的成本可以大大低于诸如随机搜索和网格搜索之类的调整过程,而不会造成任何明显的性能损失。
一些实施例可以使用反向传播来计算用于确定神经网络的权重的梯度。反向传播是微分的一种形式,如上所述,可以使用梯度下降优化算法来调整应用于各种节点或神经元的权重。在一些实施例中,可以使用相关损失函数的梯度来确定权重。反向传播可以利用损失函数对统计模型生成的输出的导数。如上所述,各个节点可以具有定义各个节点的输出的关联激活功能。可以适当地使用各种激活函数,如可以包括径向基函数(RBF)和Sigmoid函数,它们可以被各种支持向量机(SVM)用于数据转换。节点的中间层的激活函数在本文中被称为内部积核心。这些函数可以包括,例如,识别函数、阶梯函数、Sigmoid函数、斜坡函数等等。激活函数也可以是线性的或非线性的,以及其他此类选项。
图9示出了计算设备900的一组基本组件,其可用于实现各个实施例的方面。在该示例中,设备包括用于执行可以存储在存储器设备或元件904中的指令的至少一个处理器902。对于本领域的普通技术人员来说显而易见的是,该设备可以包括许多类型的存储器、数据存储或计算机可读介质,诸如用于由处理器902执行的程序指令的第一数据存储,可用于图像或数据的相同或单独的存储,可移除存储器可用于与其他设备共享信息,以及任何数量的通信方法都可用于与其他设备共享。该设备通常将包括某类型的显示元件906,诸如触摸屏、有机发光二极管(OLED)或液晶显示器(LCD),但是设备(诸如便携式媒体播放器)可能会经由其他方式传达信息,例如通过音频扬声器。如所讨论的,许多实施例中的设备将至少包括通信组件908和/或网络组件910,诸如可以通过至少一个网络支持有线或无线通信,诸如因特网、局域网(LAN)、或蜂窝网络,等等。这些组件可以使设备与远程系统或服务进行通信。该设备还可以包括能够从用户接收常规输入的至少一个附加输入设备912。该常规输入可以包括例如按钮、触摸板、触摸屏、滚轮设备、操作杆、键盘、鼠标、追踪球、小键盘或任何其他此类的设备或元件,用户通过其向设备输入命令。在一些实施例中,这些I/O设备甚至可以通过红外或蓝牙或其他链路连接。不过,在一些实施中,这样的设备可能根本不包括任何按钮,并且可能只能通过视觉和音频命令的组合来控制,使得用户可以在不必与设备接触的情况下控制设备。
各个实施例可以在各种各样的操作环境中实现,在一些情况下,操作环境可以包括一个或更多个用户计算机或计算设备,这些用户计算机或计算设备可以用于操作多个应用程序中的任何一个。用户或客户端设备可以包括多种通用个人计算机中的任何一种,例如运行标准操作系统的台式机或膝上型计算机,以及运行运动软件并能够支持多种网络和消息传递协议的蜂窝、无线和手持设备。这种系统还可以包括多个工作站,这些工作站运行各种商用操作系统和其他已知应用程序中的任何一个,用于诸如开发和数据库管理之类的目的。这些设备还可以包括其他电子设备,例如虚终端、瘦客户端、游戏系统和其他能够通过网络进行通信的设备。
大多数实施例利用本领域技术人员熟悉的至少一个网络来支持使用各种商用协议中的任何协议(例如TCP/IP或FTP)的通信。网络可以是例如局域网、广域网、虚拟专用网、因特网、内联网、外联网、公共交换电话网、红外网、无线网及其任意组合。在利用网络服务器的实施例中,网络服务器可以运行各种服务器或中间层应用程序中的任何一个,包括HTTP服务器、FTP服务器、CGI服务器、数据服务器、Java服务器和商业应用服务器。一个或更多个服务器还能够响应于来自用户设备的请求而执行程序或脚本,例如通过执行一个或更多个Web应用程序,这些Web应用程序可以实现为用任何编程语言(例如C、C#或C++,或任何脚本语言,例如Python,以及它们的组合)编写的一个或更多个脚本或程序。一个或更多个服务器还可以包括数据库服务器,包括但不限于可从 和商购获得的那些服务器。
环境可以包括各种数据存储以及如上所述的其他存储器和存储介质。这些可以驻留在各种位置,例如在一个或更多个计算机本地(和/或驻留在其中)的存储介质上,或者远离网络上的任何或所有计算机。在一组特定的实施例中,信息可以驻留在本领域技术人员熟悉的存储区域网络(SAN)中。类似地,用于执行归属于计算机、服务器或其他网络设备的功能的任何必要文件可以适当地本地和/或远程存储。在系统包括计算机化设备的情况下,每个这样的设备可以包括可以经由总线电耦合的硬件元件,这些元件包括例如至少一个中央处理单元(CPU)、至少一个输入设备(例如鼠标、键盘、控制器、触敏显示元件或小键盘)和至少一个输出设备(例如,显示设备、打印机或扬声器)。这种系统还可以包括一个或更多个存储设备,例如磁盘驱动器、光学存储设备和固态存储设备,诸如随机存取存储器(RAM)或只读存储器(ROM),以及可移除介质设备、存储卡、闪存卡等。
这样的设备还可以包括如上所述的计算机可读存储介质读取器、通信设备(例如,调制解调器、网卡(无线或有线)、红外通信设备)和工作存储器。计算机可读存储介质读取器可以连接至或配置为接收代表远程、本地、固定和/或可移除存储设备的计算机可读存储介质以及用于临时和/或更永久地包含、存储、发送和检索计算机可读信息的存储介质。系统和各种设备通常还将包括位于至少一个工作存储器设备内的多个软件应用程序、模块、服务或其他元件,包括操作系统和应用程序,诸如客户端应用程序或web浏览器。应当理解,替代实施例可以具有与上述实施例不同的许多变化。例如,还可以使用定制的硬件和/或可以在硬件、软件(包括便携式软件,例如小应用程序)或两者中实现的特定元件。此外,可以采用至其他计算设备(诸如网络输入/输出设备)的连接。
用于包含代码或代码部分的存储介质和其他非暂时性计算机可读介质可以包括本领域中已知或使用的任何适当介质,诸如但不限于以任何方法或技术实现的用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的易失性和非易失性、可移除和不可移除的介质,包括RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字通用盘(DVD)或其他光存储、磁带盒、磁带、磁盘存储或其他磁存储设备或可用于存储所需信息并可由系统设备访问的任何其他介质。基于本文提供的公开和教导,本领域普通技术人员将理解实现各个实施例的其他方式和/或方法
因此,说明书和附图被认为是说明性的而不是限制性的意义。然而,很明显,可以对其进行各种修改和改变,而不脱离如权利要求中阐述的本发明的更广泛的精神和范围。
Claims (20)
1.一种计算机实现的方法,包括:
使用第一车辆的一个或更多个传感器感测一个或更多个车辆的一个或更多个特征;
使用所述第一车辆的处理器以及至少一个机器学习模型确定所述一个或更多个车辆中的第一车辆的一个或更多个可能的导航路径,至少部分地使用至少一个第二车辆的所述一个或更多个特征和可能反应动作确定所述一个或更多个可能的导航路径;
至少部分地基于对应于所述一个或更多个车辆的所感测到的特征的价值函数,从所述一个或更多个可能的导航路径中选择导航路径;以及
使所述第一车辆根据所选的导航路径的至少一部分进行操纵。
2.如权利要求1所述的计算机实现的方法,还包括:
为所述第一车辆生成决策树,所述决策树包括所述第一车辆的可能动作和所述至少一个第二车辆的所述可能反应动作的交替等级。
3.如权利要求2所述的计算机实现的方法,还包括:
利用策略网络确定所述决策树的等级的可能反应动作,以考虑所述一个或更多个可能的导航路径。
4.如权利要求2所述的计算机实现的方法,还包括:
使用经训练的神经网络来估计所述决策树的一个或更多个等级的节点的值。
5.如权利要求1所述的计算机实现的方法,还包括:
将所选的导航路径的至少第一动作提供给所述第一车辆的优化器;以及
使所述第一车辆基于所述优化器生成的导航指令进行操纵。
6.一种计算机实现的方法,包括:
使用第一对象的一个或更多个传感器感测一个或更多个辅助对象的一个或更多个特征;
使用所述第一对象的处理器,基于至少一个第二对象的一个或更多个特征和可能反应动作,确定所述一个或更多个辅助对象的一个或更多个可能的导航路径;以及
至少部分地基于对应于所述一个或更多个辅助对象的感测到的特征的价值函数,从所述一个或更多个可能的导航路径中选择导航路径。
7.如权利要求6所述的计算机实现的方法,其中所述一个或更多个特征包括位置、速度、加速度、运动方向或运动表征中的至少一个。
8.如权利要求6所述的计算机实现的方法,还包括:
将所选的导航路径的至少第一动作提供给所述第一对象的优化器;以及
使所述第一对象基于所述优化器生成的导航指令进行操纵。
9.如权利要求6所述的计算机实现的方法,还包括:
为所述第一对象生成决策树,所述决策树包括所述第一对象的可能动作和所述至少一个辅助对象的可能反应动作的交替等级。
10.如权利要求9所述的计算机实现的方法,还包括:
利用策略网络确定所述决策树的等级的可能响应动作,以考虑所述一个或更多个可能的导航路径。
11.如权利要求9所述的计算机实现的方法,还包括:
使用经训练的神经网络来推理所述决策树的等级的所述可能反应动作。
12.如权利要求6所述的计算机实现的方法,还包括:
使用至少一个运动生成器来确定所述至少一个辅助对象的所述可能反应动作,所述至少一个运动生成器包括用于表征所述至少一个辅助对象的经训练的神经网络。
13.如权利要求6所述的计算机实现的方法,还包括:
确定所述至少一个辅助对象的表征,所述表征确定所述至少一个辅助对象的所述可能反应动作的概率。
14.如权利要求6所述的计算机实现的方法,还包括:
确定所述至少一个辅助对象的临界值,至少部分地基于所述临界值确定所述辅助对象的多个可能反应动作。
15.一种系统,包括:
至少一个处理器;以及
存储器,其包括指令,当所述指令由所述至少一个处理器执行时,使所述系统:
利用一个或更多个机器学习模型来推理第一对象所选的导航路径,其中至少部分地基于与由所述第一对象感测到的一个或更多个辅助对象的特征相对应的价值函数来推理所选的导航路径,所选的导航路径包括所述第一对象的可能动作以及所述一个或更多个辅助对象的可能反应动作的序列。
16.如权利要求15所述的系统,其中所述指令在被执行时,进一步使所述系统:
使用所述第一对象的一个或更多个传感器感测所述一个或更多个辅助对象的特征;
使用所述机器学习模型中的至少一个机器学习模型确定所述第一对象的一个或更多个可能的导航路径;以及
至少部分地基于所述价值函数从所述一个或更多个可能的导航路径中确定所选的导航路径。
17.如权利要求15所述的系统,其中所述指令在被执行时,进一步使所述系统:
使所述第一对象根据所选的导航路径的至少一部分进行操纵。
18.如权利要求15所述的系统,其中所述指令在被执行时,进一步使所述系统:
为所述第一对象生成决策树,所述决策树包括所述第一对象的所述可能动作和所述一个或更多个辅助对象的所述可能反应动作的交替等级。
19.如权利要求18所述的系统,其中所述指令在被执行时进一步使所述系统:
利用策略网络确定所述决策树的等级的可能响应动作,以考虑所述一个或更多个可能的导航路径。
20.如权利要求18所述的系统,其中所述指令在被执行时进一步使所述系统:
从所述辅助对象中的至少一个辅助对象接收意图数据;以及
利用所述意图数据来确定所述可能反应动作的至少子集。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/268,188 | 2019-02-05 | ||
US16/268,188 US20200249674A1 (en) | 2019-02-05 | 2019-02-05 | Combined prediction and path planning for autonomous objects using neural networks |
PCT/US2020/015261 WO2020163107A1 (en) | 2019-02-05 | 2020-01-27 | Combined prediction and path planning for autonomous objects using neural networks |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113474231A true CN113474231A (zh) | 2021-10-01 |
Family
ID=69726792
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202080012391.2A Pending CN113474231A (zh) | 2019-02-05 | 2020-01-27 | 使用神经网络对自主对象进行组合预测和路径规划 |
Country Status (5)
Country | Link |
---|---|
US (2) | US20200249674A1 (zh) |
CN (1) | CN113474231A (zh) |
DE (1) | DE112020000688T5 (zh) |
GB (3) | GB2616745B (zh) |
WO (1) | WO2020163107A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114719878A (zh) * | 2022-04-06 | 2022-07-08 | 北京百度网讯科技有限公司 | 车辆导航方法和装置、系统、电子设备、计算机介质 |
CN116630812A (zh) * | 2023-07-21 | 2023-08-22 | 四川发展环境科学技术研究院有限公司 | 基于可见光图像分析的水体特征检测方法及系统 |
Families Citing this family (66)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018117631A1 (en) * | 2016-12-21 | 2018-06-28 | Samsung Electronics Co., Ltd. | Electronic apparatus and method of operating the same |
DE102018207572A1 (de) * | 2018-05-16 | 2019-11-21 | Ford Global Technologies, Llc | Adaptiver Geschwindigkeitsregler für Kraftfahrzeuge und Verfahren zur adaptiven Geschwindigkeitsregelung |
US20200312155A1 (en) * | 2018-07-31 | 2020-10-01 | Honda Motor Co., Ltd. | Systems and methods for swarm action |
US20200133307A1 (en) * | 2018-07-31 | 2020-04-30 | Honda Motor Co., Ltd. | Systems and methods for swarm action |
US11204605B1 (en) * | 2018-08-03 | 2021-12-21 | GM Global Technology Operations LLC | Autonomous vehicle controlled based upon a LIDAR data segmentation system |
KR102592825B1 (ko) * | 2018-08-31 | 2023-10-23 | 현대자동차주식회사 | 충돌 회피 제어 장치 및 그 방법 |
DE102019202592A1 (de) | 2019-02-26 | 2020-08-27 | Volkswagen Aktiengesellschaft | Verfahren zum Betreiben eines Fahrerinformationssystems in einem Ego-Fahrzeug und Fahrerinformationssystem |
DE102019202578A1 (de) | 2019-02-26 | 2020-08-27 | Volkswagen Aktiengesellschaft | Verfahren zum Betreiben eines Fahrerinformationssystems in einem Ego-Fahrzeug und Fahrerinformationssystem |
DE102019202587A1 (de) * | 2019-02-26 | 2020-08-27 | Volkswagen Aktiengesellschaft | Verfahren zum Betreiben eines Fahrerinformationssystems in einem Ego-Fahrzeug und Fahrerinformationssystem |
US11364936B2 (en) * | 2019-02-28 | 2022-06-21 | Huawei Technologies Co., Ltd. | Method and system for controlling safety of ego and social objects |
WO2020178843A1 (en) * | 2019-03-05 | 2020-09-10 | Telefonaktiebolaget Lm Ericsson (Publ) | System and method for managing resources |
EP3709208A1 (en) * | 2019-03-14 | 2020-09-16 | Visteon Global Technologies, Inc. | Method and control unit for detecting a region of interest |
US11052914B2 (en) * | 2019-03-14 | 2021-07-06 | GM Global Technology Operations LLC | Automated driving systems and control logic using maneuver criticality for vehicle routing and mode adaptation |
CN110069064B (zh) * | 2019-03-19 | 2021-01-29 | 驭势科技(北京)有限公司 | 一种自动驾驶系统升级的方法、自动驾驶系统及车载设备 |
US11320820B2 (en) * | 2019-03-26 | 2022-05-03 | GM Global Technology Operations LLC | Hyperassociation in episode memory |
US11168985B2 (en) * | 2019-04-01 | 2021-11-09 | GM Global Technology Operations LLC | Vehicle pose determining system and method |
US11136023B2 (en) * | 2019-05-07 | 2021-10-05 | Baidu Usa Llc | Method for determining exiting intersection of moving objects for autonomous driving vehicles |
US11643115B2 (en) * | 2019-05-31 | 2023-05-09 | Waymo Llc | Tracking vanished objects for autonomous vehicles |
US11455527B2 (en) * | 2019-06-14 | 2022-09-27 | International Business Machines Corporation | Classification of sparsely labeled text documents while preserving semantics |
US11663913B2 (en) * | 2019-07-01 | 2023-05-30 | Baidu Usa Llc | Neural network with lane aggregation for lane selection prediction of moving objects during autonomous driving |
JP7400824B2 (ja) * | 2019-09-18 | 2023-12-19 | 日本電気株式会社 | パラメータ決定装置、信号送信装置、パラメータ決定方法、信号送信方法、及び、記録媒体 |
US20210078735A1 (en) * | 2019-09-18 | 2021-03-18 | Bae Systems Information And Electronic Systems Integration Inc. | Satellite threat mitigation by application of reinforcement machine learning in physics based space simulation |
US11591012B2 (en) * | 2019-10-01 | 2023-02-28 | Robert Bosch Gmbh | Vehicle trajectory prediction using road topology and traffic participant object states |
US11754408B2 (en) * | 2019-10-09 | 2023-09-12 | Argo AI, LLC | Methods and systems for topological planning in autonomous driving |
JP7400371B2 (ja) * | 2019-11-13 | 2023-12-19 | オムロン株式会社 | ロボット制御モデル学習方法、ロボット制御モデル学習装置、ロボット制御モデル学習プログラム、ロボット制御方法、ロボット制御装置、ロボット制御プログラム、及びロボット |
US11891087B2 (en) * | 2019-12-20 | 2024-02-06 | Uatc, Llc | Systems and methods for generating behavioral predictions in reaction to autonomous vehicle movement |
US11759951B2 (en) * | 2020-02-28 | 2023-09-19 | Honda Motor Co., Ltd. | Systems and methods for incorporating latent states into robotic planning |
US11708089B2 (en) | 2020-02-28 | 2023-07-25 | Honda Motor Co., Ltd. | Systems and methods for curiosity development in agents |
JP2021162926A (ja) * | 2020-03-30 | 2021-10-11 | 株式会社アイシン | 障害物検出装置及び運転支援システム |
US11511413B2 (en) * | 2020-06-12 | 2022-11-29 | Huawei Technologies Co. Ltd. | Systems and methods for learning reusable options to transfer knowledge between tasks |
EP4232975A4 (en) * | 2020-10-23 | 2024-10-23 | Driverdo Llc | MACHINE LEARNING FOR VEHICLE ALLOCATION |
US11661082B2 (en) * | 2020-10-28 | 2023-05-30 | GM Global Technology Operations LLC | Forward modeling for behavior control of autonomous vehicles |
US11858536B1 (en) * | 2020-10-31 | 2024-01-02 | Uatc, Llc | Systems and methods for interactive prediction and planning |
DE102020129451A1 (de) | 2020-11-09 | 2022-05-12 | Audi Ag | Verfahren zur Prädiktion von Fahreingriffen, Verfahren zum Training eines Algorithmus und Kraftfahrzeug |
GB2601110A (en) * | 2020-11-10 | 2022-05-25 | Sony Interactive Entertainment Inc | Latency mitigation system and method |
US11868137B2 (en) * | 2020-11-12 | 2024-01-09 | Honda Motor Co., Ltd. | Systems and methods for path planning with latent state inference and graphical relationships |
CN116670687A (zh) * | 2020-11-16 | 2023-08-29 | 华为云计算技术有限公司 | 用于调整训练后的物体检测模型以适应域偏移的方法和系统 |
US11554794B2 (en) * | 2020-11-25 | 2023-01-17 | Argo AI, LLC | Method and system for determining a mover model for motion forecasting in autonomous vehicle control |
CN112728192B (zh) * | 2021-01-04 | 2023-03-14 | 上海一诺仪表有限公司 | 一种阀门控制方法、控制装置、控制设备及计算机设备 |
US11760388B2 (en) * | 2021-02-19 | 2023-09-19 | Argo AI, LLC | Assessing present intentions of an actor perceived by an autonomous vehicle |
US20220266859A1 (en) * | 2021-02-24 | 2022-08-25 | Zoox, Inc. | Simulated agents based on driving log data |
US12061847B2 (en) | 2021-02-24 | 2024-08-13 | Zoox, Inc. | Agent conversions in driving simulations |
US20220277213A1 (en) * | 2021-03-01 | 2022-09-01 | The Toronto-Dominion Bank | Horizon-aware cumulative accessibility estimation |
CN113126620B (zh) * | 2021-03-23 | 2023-02-24 | 北京三快在线科技有限公司 | 路径规划模型训练方法及装置 |
CN112884256B (zh) * | 2021-04-28 | 2021-07-27 | 深圳大学 | 路径规划方法、装置、计算机设备和存储介质 |
CN113219989B (zh) * | 2021-06-02 | 2022-05-31 | 安徽工业大学 | 一种基于改进的蝴蝶优化算法移动机器人路径规划方法 |
US11851054B2 (en) * | 2021-06-18 | 2023-12-26 | Zoox, Inc. | Active prediction based on object trajectories |
DE102021116779A1 (de) * | 2021-06-30 | 2023-01-05 | Bayerische Motoren Werke Aktiengesellschaft | Verfahren zum Bereitstellen eines prädizierten, aktuellen Fahrziels an einen Nutzer eines Fahrzeugs, computerlesbares Medium, System, Fahrzeug, und mobiles Endgerät |
CN113688903B (zh) * | 2021-08-24 | 2024-03-22 | 贵州电网有限责任公司 | 一种输电线路易覆冰微地形分类方法 |
CN113705921B (zh) * | 2021-09-03 | 2024-02-27 | 厦门闽江智慧科技有限公司 | 一种混合充电策略的电动汽车动态路径规划优化方法 |
US20230192130A1 (en) * | 2021-12-22 | 2023-06-22 | Gm Cruise Holdings Llc | System and method of using a machine learning model to aid a planning stack to choose a route |
US12056532B2 (en) * | 2022-01-21 | 2024-08-06 | Dell Products L.P. | Method and system for performing distributed computer vision workloads in a computer vision environment |
CN114580539A (zh) * | 2022-03-04 | 2022-06-03 | 京东鲲鹏(江苏)科技有限公司 | 一种车辆驾驶策略处理方法和装置 |
US12097878B2 (en) | 2022-04-26 | 2024-09-24 | Perceptive Automata, Inc. | Generating training data for machine learning based models for autonomous vehicles |
CN114839999B (zh) * | 2022-05-30 | 2024-10-18 | 山东施卫普环保科技有限公司 | 一种清扫车的智能路径优化控制方法及系统 |
US20230391367A1 (en) * | 2022-06-01 | 2023-12-07 | Motional Ad Llc | Inferring autonomous driving rules from data |
US11676399B1 (en) * | 2022-07-18 | 2023-06-13 | Motional Ad Llc. | Object tracking |
JP2024531006A (ja) * | 2022-07-19 | 2024-08-29 | 江▲蘇▼大学 | 複雑な交差点でのマルチエージェント連合強化学習による車道協調制御方法 |
CN115206157A (zh) * | 2022-08-05 | 2022-10-18 | 白杨时代(北京)科技有限公司 | 一种无人潜航器寻路训练方法、装置及无人潜航器 |
US20240092398A1 (en) * | 2022-08-31 | 2024-03-21 | Zoox, Inc. | Trajectory prediction based on a decision tree |
DE102022209635A1 (de) | 2022-09-14 | 2024-03-14 | Volkswagen Aktiengesellschaft | Verfahren zum Betreiben eines lernenden Systems, Computerprogrammprodukt sowie Fahrzeug |
WO2024098161A1 (en) * | 2022-11-11 | 2024-05-16 | Waabi Innovation Inc. | Implicit occupancy for autonomous systems |
US11697435B1 (en) * | 2022-12-09 | 2023-07-11 | Plusai, Inc. | Hierarchical vehicle action prediction |
US20240240948A1 (en) * | 2023-01-17 | 2024-07-18 | Tencent America LLC | Differentiable learning of scalable multi-agent navigation policies |
CN115860431B (zh) * | 2023-02-07 | 2023-05-26 | 广东技术师范大学 | 基于异构感知的多机器人智能调度方法、系统、机器人及介质 |
CN117494921B (zh) * | 2023-12-29 | 2024-04-12 | 湖南工商大学 | 一种多目标类型的路径模型求解方法及装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9557737B1 (en) * | 2014-08-15 | 2017-01-31 | Google Inc. | Distribution decision trees |
CN107169402A (zh) * | 2016-03-08 | 2017-09-15 | 福特全球技术公司 | 车辆车道定位 |
US20180150081A1 (en) * | 2018-01-24 | 2018-05-31 | GM Global Technology Operations LLC | Systems and methods for path planning in autonomous vehicles |
CN108292134A (zh) * | 2015-11-04 | 2018-07-17 | 祖克斯有限公司 | 用于优化远程操作和/或规划器决策的机器学习系统和技术 |
CN108475057A (zh) * | 2016-12-21 | 2018-08-31 | 百度(美国)有限责任公司 | 基于车辆周围的情境预测车辆的一个或多个轨迹的方法和系统 |
US20180374341A1 (en) * | 2017-06-27 | 2018-12-27 | GM Global Technology Operations LLC | Systems and methods for predicting traffic patterns in an autonomous vehicle |
WO2019023628A1 (en) * | 2017-07-27 | 2019-01-31 | Waymo Llc | NEURAL NETWORKS FOR VEHICLE TRACK PLANNING |
Family Cites Families (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9495874B1 (en) * | 2012-04-13 | 2016-11-15 | Google Inc. | Automated system and method for modeling the behavior of vehicles and other agents |
EP3204925A1 (de) * | 2014-10-10 | 2017-08-16 | Continental Teves AG & Co. OHG | Verfahren zum handhaben einer regelkarte |
EP3219564B1 (en) * | 2016-03-14 | 2018-12-05 | IMRA Europe S.A.S. | Driving prediction with a deep neural network |
DE102016211139A1 (de) * | 2016-06-22 | 2017-12-28 | Continental Automotive Gmbh | Verfahren zum autonomen Fahren eines Fahrzeugs in einer Engstelle |
US10093311B2 (en) * | 2016-07-06 | 2018-10-09 | Waymo Llc | Testing predictions for autonomous vehicles |
US10402687B2 (en) * | 2017-07-05 | 2019-09-03 | Perceptive Automata, Inc. | System and method of predicting human interaction with vehicles |
US10611371B2 (en) * | 2017-09-14 | 2020-04-07 | Toyota Motor Engineering & Manufacturing North America, Inc. | System and method for vehicle lane change prediction using structural recurrent neural networks |
US10957201B2 (en) * | 2017-09-15 | 2021-03-23 | Qualcomm Incorporated | System and method for relative positioning based safe autonomous driving |
US10997491B2 (en) * | 2017-10-04 | 2021-05-04 | Huawei Technologies Co., Ltd. | Method of prediction of a state of an object in the environment using an action model of a neural network |
US10935982B2 (en) * | 2017-10-04 | 2021-03-02 | Huawei Technologies Co., Ltd. | Method of selection of an action for an object using a neural network |
WO2019089591A1 (en) * | 2017-10-30 | 2019-05-09 | Mobileye Vision Technologies Ltd. | Vehicle navigation based on human activity |
US10466691B2 (en) * | 2017-11-06 | 2019-11-05 | Pony Ai Inc. | Coordinated control of self-driving vehicles under emergency situations |
US10460577B2 (en) * | 2018-02-28 | 2019-10-29 | Pony Ai Inc. | Directed alert notification by autonomous-driving vehicle |
US10679099B2 (en) * | 2018-05-08 | 2020-06-09 | Toyta Research Institute, Inc. | Method and apparatus for a manifold view of space |
US11042156B2 (en) * | 2018-05-14 | 2021-06-22 | Honda Motor Co., Ltd. | System and method for learning and executing naturalistic driving behavior |
US11104334B2 (en) * | 2018-05-31 | 2021-08-31 | Tusimple, Inc. | System and method for proximate vehicle intention prediction for autonomous vehicles |
US20200017124A1 (en) * | 2018-07-12 | 2020-01-16 | Sf Motors, Inc. | Adaptive driver monitoring for advanced driver-assistance systems |
US11584379B2 (en) * | 2018-08-06 | 2023-02-21 | Honda Motor Co., Ltd. | System and method for learning naturalistic driving behavior based on vehicle dynamic data |
US11370446B2 (en) * | 2018-08-06 | 2022-06-28 | Honda Motor Co., Ltd. | System and method for learning and predicting naturalistic driving behavior |
US10627819B1 (en) * | 2018-10-11 | 2020-04-21 | Pony Ai Inc. | On-site notification from autonomous vehicle for traffic safety |
US11260872B2 (en) * | 2018-10-12 | 2022-03-01 | Honda Motor Co., Ltd. | System and method for utilizing a temporal recurrent network for online action detection |
US11409285B2 (en) * | 2018-12-27 | 2022-08-09 | Continental Automotive Systems, Inc. | Method for maneuver prediction of traffic participant |
-
2019
- 2019-02-05 US US16/268,188 patent/US20200249674A1/en active Pending
-
2020
- 2020-01-27 CN CN202080012391.2A patent/CN113474231A/zh active Pending
- 2020-01-27 GB GB2307566.6A patent/GB2616745B/en active Active
- 2020-01-27 WO PCT/US2020/015261 patent/WO2020163107A1/en active Application Filing
- 2020-01-27 GB GBGB2306552.7A patent/GB202306552D0/en not_active Ceased
- 2020-01-27 DE DE112020000688.3T patent/DE112020000688T5/de active Pending
- 2020-01-27 GB GB2112514.1A patent/GB2595620B/en active Active
-
2021
- 2021-01-04 US US17/140,738 patent/US20210124353A1/en active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9557737B1 (en) * | 2014-08-15 | 2017-01-31 | Google Inc. | Distribution decision trees |
CN108292134A (zh) * | 2015-11-04 | 2018-07-17 | 祖克斯有限公司 | 用于优化远程操作和/或规划器决策的机器学习系统和技术 |
CN107169402A (zh) * | 2016-03-08 | 2017-09-15 | 福特全球技术公司 | 车辆车道定位 |
CN108475057A (zh) * | 2016-12-21 | 2018-08-31 | 百度(美国)有限责任公司 | 基于车辆周围的情境预测车辆的一个或多个轨迹的方法和系统 |
US20180374341A1 (en) * | 2017-06-27 | 2018-12-27 | GM Global Technology Operations LLC | Systems and methods for predicting traffic patterns in an autonomous vehicle |
WO2019023628A1 (en) * | 2017-07-27 | 2019-01-31 | Waymo Llc | NEURAL NETWORKS FOR VEHICLE TRACK PLANNING |
US20180150081A1 (en) * | 2018-01-24 | 2018-05-31 | GM Global Technology Operations LLC | Systems and methods for path planning in autonomous vehicles |
Non-Patent Citations (1)
Title |
---|
ACHIKET DEO, AKSHAY RANGESH, AND MOHAN M.TRIVEDI: "How would surround vehicles move? A Unified Framework for Maneuver Classification and Motion Prediction", ARXIV, pages 1 - 11 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114719878A (zh) * | 2022-04-06 | 2022-07-08 | 北京百度网讯科技有限公司 | 车辆导航方法和装置、系统、电子设备、计算机介质 |
CN114719878B (zh) * | 2022-04-06 | 2023-04-21 | 北京百度网讯科技有限公司 | 车辆导航方法和装置、系统、电子设备、计算机介质 |
CN116630812A (zh) * | 2023-07-21 | 2023-08-22 | 四川发展环境科学技术研究院有限公司 | 基于可见光图像分析的水体特征检测方法及系统 |
CN116630812B (zh) * | 2023-07-21 | 2023-09-26 | 四川发展环境科学技术研究院有限公司 | 基于可见光图像分析的水体特征检测方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
GB202306552D0 (en) | 2023-06-14 |
GB2616745A (en) | 2023-09-20 |
GB2616745B (en) | 2023-12-13 |
GB2595620A (en) | 2021-12-01 |
GB2595620B (en) | 2023-09-27 |
DE112020000688T5 (de) | 2021-12-30 |
US20210124353A1 (en) | 2021-04-29 |
US20200249674A1 (en) | 2020-08-06 |
GB202112514D0 (en) | 2021-10-20 |
GB202307566D0 (en) | 2023-07-05 |
WO2020163107A1 (en) | 2020-08-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210124353A1 (en) | Combined prediction and path planning for autonomous objects using neural networks | |
US11822337B2 (en) | Autonomous vehicles featuring machine-learned yield model | |
Ladosz et al. | Exploration in deep reinforcement learning: A survey | |
US10902616B2 (en) | Scene embedding for visual navigation | |
JP2023175055A (ja) | 自律型車両の計画 | |
Kim et al. | Multi-head attention based probabilistic vehicle trajectory prediction | |
JP2020531993A (ja) | 自律車両に関する物体予測を優先順位化するためのシステムおよび方法 | |
Mehta et al. | Learning end-to-end autonomous driving using guided auxiliary supervision | |
JP2022552312A (ja) | クロスバッチ正規化 | |
KR20190110500A (ko) | 인공지능 서버 | |
TW202020748A (zh) | 遞迴多保真度行為預測 | |
US20230222268A1 (en) | Automated Generation and Refinement of Variation Parameters for Simulation Scenarios | |
Biswas et al. | QuAD: Query-based Interpretable Neural Motion Planning for Autonomous Driving | |
Valiente et al. | Learning-based social coordination to improve safety and robustness of cooperative autonomous vehicles in mixed traffic | |
WO2024049925A1 (en) | Trajectory prediction based on a decision tree | |
US20240101157A1 (en) | Latent variable determination by a diffusion model | |
US20240086709A1 (en) | Deep learning compute paths for faster vehicle reaction times | |
Araújo et al. | Cooperative observation of malicious targets in a 3d urban traffic environment using uavs | |
US12105205B2 (en) | Attributing sensor realism gaps to sensor modeling parameters | |
US12037013B1 (en) | Automated reinforcement learning scenario variation and impact penalties | |
US20240166222A1 (en) | Measuring simulation realism | |
US20240116539A1 (en) | Rare scenario handling for autonomous vehicles | |
US20240143995A1 (en) | Determining a distribution for a neural network architecture | |
US20240004961A1 (en) | Determining environmental actor importance with ordered ranking loss | |
US20240149918A1 (en) | Navigation based on internal state inference and interactivity estimation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |