CN115843346A - 带有对象的行人 - Google Patents
带有对象的行人 Download PDFInfo
- Publication number
- CN115843346A CN115843346A CN202080089405.0A CN202080089405A CN115843346A CN 115843346 A CN115843346 A CN 115843346A CN 202080089405 A CN202080089405 A CN 202080089405A CN 115843346 A CN115843346 A CN 115843346A
- Authority
- CN
- China
- Prior art keywords
- pedestrian
- vehicle
- indication
- component
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 239000002131 composite material Substances 0.000 claims abstract description 40
- 238000000034 method Methods 0.000 claims description 100
- 238000004458 analytical method Methods 0.000 claims description 5
- 230000008447 perception Effects 0.000 abstract description 28
- 230000001953 sensory effect Effects 0.000 abstract description 3
- 238000012549 training Methods 0.000 description 73
- 238000004422 calculation algorithm Methods 0.000 description 18
- 238000004891 communication Methods 0.000 description 17
- 230000015654 memory Effects 0.000 description 16
- 238000001514 detection method Methods 0.000 description 14
- 238000012417 linear regression Methods 0.000 description 14
- 230000006870 function Effects 0.000 description 11
- 230000011218 segmentation Effects 0.000 description 11
- 238000010801 machine learning Methods 0.000 description 8
- 238000000429 assembly Methods 0.000 description 7
- 230000000712 assembly Effects 0.000 description 7
- 238000013499 data model Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000007613 environmental effect Effects 0.000 description 4
- 238000005259 measurement Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000003491 array Methods 0.000 description 3
- 238000003066 decision tree Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000004566 IR spectroscopy Methods 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000001816 cooling Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000013488 ordinary least square regression Methods 0.000 description 1
- 238000012628 principal component regression Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 239000000725 suspension Substances 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/0088—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots characterized by the autonomous decision making process, e.g. artificial intelligence, predefined behaviours
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0231—Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means
- G05D1/0238—Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using obstacle or wall sensors
- G05D1/024—Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using obstacle or wall sensors in combination with a laser
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
- G06V20/58—Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S17/00—Systems using the reflection or reradiation of electromagnetic waves other than radio waves, e.g. lidar systems
- G01S17/88—Lidar systems specially adapted for specific applications
- G01S17/93—Lidar systems specially adapted for specific applications for anti-collision purposes
- G01S17/931—Lidar systems specially adapted for specific applications for anti-collision purposes of land vehicles
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Evolutionary Biology (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Aviation & Aerospace Engineering (AREA)
- Human Computer Interaction (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Automation & Control Theory (AREA)
- Optics & Photonics (AREA)
- Electromagnetism (AREA)
- Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- Game Theory and Decision Science (AREA)
- Medical Informatics (AREA)
- Traffic Control Systems (AREA)
- Image Analysis (AREA)
Abstract
描述了检测带有对象的行人(推婴儿车、手推车、开门、携带雨伞等)。在示例中,车辆的感知组件可以从与车辆相关联的传感器接收传感器数据。感知组件可以通过模型确定与传感器数据相关联的观测,其中观测包括第一对象(例如,行人)。感知组件可以确定第一对象是否与第二对象(例如,行人对象)相关联,其中,第一对象和第二对象与复合对象(例如,行人/行人对象系统)相关联。感知组件可以将第一对象的指示或复合对象的指示提供给车辆的预测组件或规划组件中的至少一个,以用于控制车辆。
Description
相关申请的交叉引用
本专利申请要求于2019年12月23日提交的标题为“PEDESTRIANS WITH OBJECTS”的美国专利申请第16/726,042号的优先权,以及于2019年12月23日提交的标题为“PEDESTRIAN OBJECT DETECTION TRAINING”的美国专利申请第16/726,097号的优先权,其全部内容通过引用并入本申请。
背景技术
自主车辆可以使用传感器来捕获环境数据。为了高效地在环境中导航,自主车辆使用传感器数据来检测环境中的对象以避免碰撞。例如,感知系统允许自主车辆识别环境中的对象,以便自主车辆可以规划一条穿过环境的安全路线。在一个示例中,分割技术可以用于将传感器数据与对象相关联。自主车辆的安全操作至少部分取决于感知系统在检测、分类和预测传感器数据中检测到的对象的运动时提供的信息。因此,由对象的这种检测、分类和/或预测提供的不准确和/或不完整的信息会降低自主车辆可以操作的安全性。
附图说明
参考附图来描述详细描述。在附图中,附图标记最左边的数字标识附图标记首次出现的图。在不同的图中使用相同的附图标记表示相似或相同的组件或特征。
图1示出了如本文描述的其中可以检测行人对象的示例环境。
图2示出了如本文描述的用于训练用于检测行人对象的模型的示例过程。
图3示出了如本文描述的用于检测行人对象并确定与其相关联的运动的示例过程。
图4是示出用于执行本文描述的技术的示例系统的框图。
图5示出了如本文描述的用于训练用于检测行人对象的模型的示例过程。
图6示出了如本文描述的用于检测行人对象的示例过程。
图7示出了如本文描述的用于确定行人对象是否与行人相关联的示例过程。
图8示出了如本文描述的用于确定行人对象是否与行人相关联的示例过程。
具体实施方式
本文描述的技术涉及训练用于检测与行人相关联的对象的模型,并由车辆(诸如自主车辆)使用该模型。在示例中,此类模型可以用于检测与车辆环境内的行人相关联的对象,并且基于检测到此类对象,车辆可以确定如何处理此类行人和相关联的对象。在一个示例中,行人可以与诸如手提箱、婴儿车、雨伞或其他对象之类的对象相关联。这样的对象可以导致行人的姿态和/或位置的扩展,但是对象的运动可以由行人控制,并且在一些示例中,可以限制行人的运动(例如,行人在携带手提箱时可能无法快速移动,可能无法使婴儿车在路缘上下移动,或者可能会受到横向加速度方面的限制)。因此,该行人可以比没有对象的行人更大(例如,占据更多空间)和/或可以与没有对象的行人不同地移动。本文描述的技术使得能够检测与行人相关联的对象,例如经由被训练以检测对象的模型和/或被训练以确定行人和相关联的对象如何移动的模型,以便例如自主车辆车载的计算设备可以确定如何控制这种自主车辆。
在一个示例中,可以训练模型以检测与行人相关联的对象的存在。出于本次讨论的目的,此类对象可以称为“行人对象”。行人对象是附接到行人的对象,其(i)修改行人的几何形状(例如,从没有对象的行人的几何形状)以及(ii)具有由行人控制的运动轨迹。行人对象的非限制性示例包括婴儿车、手提箱、雨伞、大箱子、儿童(例如,被携带的)、摩托车、手推车、轮椅等。诸如拴在皮带上的动物之类的对象可能不被视为行人对象,因为该动物的运动轨迹不受行人控制(例如,动物可以在皮带的限制内以它想要的任何轨迹行走)。同样,与成年行人手牵手的儿童可能不被视为行人对象。
在一个示例中,该模型可以是使用“自上而下分割(top-down segmentation)”算法的神经网络,如于2018年4月26日提交的美国专利申请第15/963,833号中所描述的,其全部内容通过引用并入本文。可以使用机器学习技术训练这样的模型,以检测与行人相关联的行人对象。在至少一个示例中,诸如边界区域的指示可以与行人、行人对象以及行人和行人对象的组合(本文称为行人/行人对象系统)相关联。也即,行人和行人对象可以各自是包括行人和行人对象的复合对象的组成部分。在至少一个示例中,可以将边界区域提供给预测组件和/或规划组件,如下文描述的,以生成自主车辆的轨迹,自主车辆使用该轨迹穿越环境。也即,可以将边界区域提供给自主车辆的下游组件以控制自主车辆。在一些情况下,与检测到的对象相关联的数据可以提供给其他分割算法和/或分类算法以进行进一步处理。这些和其他操作可以作为本文描述的技术的一部分。
现有的分类技术可以充分分类诸如汽车、行人、自行车等的对象。然而,现有的分类技术可能会错误分类,或者可能无法被训练以对驾驶时不常见的稀有对象进行分类。然而,这些稀有对象对于自主车辆如何感知它们行驶的环境状态并确定如何在这些环境中导航非常重要。这种稀有对象的示例是带有对象的行人。本文描述的技术使得能够检测这样的行人对象,使得本文描述的技术保持和/或提高确定和检测环境中的对象的准确性,从而提高计算设备的运行能力。可以理解,保持和/或提高确定和检测对象的准确性可以改进安全结果,尤其是在车辆和自主车辆的上下文中。因此,本文描述的技术可以改进计算设备的运行能力以及改进安全结果。
虽然上述技术针对检测行人和与其相关联的对象(例如,行人对象),但本文描述的技术可以应用于任何数量类型的对象和相关联的对象,这些相关联的对象被附接到相应的对象(例如,其他相应的对象控制相关联的对象的运动)和/或修改其他相应的对象的几何形状。例如,本文描述的技术可以适用于检测车辆的打开的门、附接到自行车的儿童携带者等。也即,本文描述的技术不应被解释为限于检测行人和行人对象。
本文描述的技术可以以多种方式实现。下面参考以下附图提供示例实施方式。在自主车辆的上下文中讨论了示例实施方式;然而,本文描述的方法、装置和组件可以应用于各种组件(例如,传感器组件或机器人平台),并且不限于自主车辆。在一个示例中,本文描述的技术可以用于驾驶员控制的车辆中,其中这种组件可以向车辆的驾驶员提供执行各种操纵是否安全的指示。在另一个示例中,这些技术可以在航空或航海上下文中使用,或者在涉及可能与组件未知的行为相关联的对象或实体的任何组件中使用。在一些示例中,这些技术可以在自主车辆和/或感知组件之外的上下文中使用。也即,在一些示例中,本文描述的技术可以适用于天气数据、金融数据等。此外,本文描述的技术可以与真实数据(例如,使用传感器捕获的)、模拟数据(例如,由模拟器生成的),或两者的任意组合一起使用。
图1示出了其中可以检测行人对象的示例环境100。提供图1作为本文描述的技术的概述。图2和图3提供了与训练用于检测行人对象的模型(例如,图2)和使用这样的模型(例如,图3)相关的附加细节。下面参考图4描述与本文描述的系统相关联的附加细节。
在至少一个示例中,车辆102可以在环境100内行驶。在至少一个示例中,车辆102可以是自主车辆,其被配置为根据美国国家公路交通安全管理局发布的5级分类进行操作,该分类描述了能够在整个行程中执行所有安全关键功能的车辆,其中驾驶员(或乘员)不被期望在任何时候控制车辆。在这样的示例中,由于车辆102可以被配置为控制从启动到停止的所有功能,包括所有停车功能,所以它可以是未被占用的。这仅是一个示例,本文描述的组件和方法可以并入到任何地面、空中或水上交通工具中,包括从始终需要由驾驶员手动控制的交通工具到那些部分或完全自主控制的交通工具。也即,在图示的示例中,车辆102是自主车辆;然而,车辆102可以是任何其他类型的交通工具。
在至少一个示例中,车辆102可以与下文参考图4描述的车辆计算设备相关联,其可以包括用于控制车辆102的一个或多个组件。在至少一个示例中,感知组件可以至少部分地基于从车辆102的传感器组件接收的传感器数据来执行对象检测、分割和/或分类。在至少一个示例中,传感器组件可以包括激光雷达传感器、雷达传感器、超声波换能器、声纳传感器、位置传感器(例如,全球定位组件(GPS)、指南针等)、惯性传感器(例如,惯性测量单元、加速度计、磁力计、陀螺仪等)、相机(例如,RGB、IR、强度、深度等)、车轮编码器、麦克风、环境传感器(例如,温度传感器、湿度传感器、光传感器、压力传感器等)、飞行时间(ToF)传感器等。此类传感器数据可以包括但不限于激光雷达数据、雷达数据、超声波换能器数据、声纳数据、位置数据(例如,全球定位组件(GPS)、指南针等)、惯性数据(例如,惯性测量单元数据、加速度计数据、磁力计数据、陀螺仪数据等)、相机数据(例如,RGB数据、IR数据、强度数据、深度数据等)、车轮编码器数据、麦克风数据、环境传感器数据(例如,温度传感器数据、湿度传感器数据、光传感器数据、压力传感器数据等)、ToF传感器数据等。
在至少一个示例中,感知组件可以接收传感器数据并且可以利用一个或多个机器训练的模型来关于传感器数据中识别的对象执行对象检测、分割和/或分类。在一些示例中,感知组件可以将边界区域(或其他指示)与识别的对象相关联,并且可以将与识别的对象的分类相关联的置信度分数与识别的对象相关联。在一些示例中,对象在经由显示器呈现时,可以基于它们的被感知的类别来着色。
作为示例,激光雷达数据可以由车辆102的一个或多个激光雷达传感器组件捕获,并且感知组件可以将捕获的激光雷达数据与体素空间相关联。体素空间可以在三维空间中的体素网格中表示激光雷达数据。利用体素空间中表示的激光雷达数据,感知组件可以使用机器训练的模型来输出与环境中检测到的单个对象相关联的遮罩(mask)。在一些示例中,可以在平面视图或自上而下的透视图中表示遮罩(例如,“自上而下分割”)。也即,如上文描述的,在至少一个示例中,机器训练的模型可以是神经网络,例如在2018年4月26日提交的美国专利申请第15/963,833号中描述的“自上而下分割”算法,其内容通过引用整体并入本文。与分割相关联的附加细节在2017年11月21日提交的美国专利申请第15/820,245号中进行了描述,其内容通过引用整体并入本文。在一些示例中,可以在正视图或侧面透视图中表示遮罩。在至少一个示例中,如上文描述的机器训练的模型可以被训练以输出具有比相关联的地面实况对象略小的尺寸的遮罩。
虽然上述技术针对关于激光雷达数据中的对象的检测、分割和/或分类,但本文描述的技术可以适用于附加或替代类型的传感器数据,包括但不限于图像数据、雷达数据、音频传感器数据、热传感器数据、压力传感器数据等,这些数据可能属于也可能不属于自主车辆的领域。
在至少一个示例中,与车辆102相关联的感知组件可以检测环境100中的行人104。在这样的示例中,感知组件可以将边界区域106(或其他指示)与行人104相关联。在至少在一个示例中,行人104可以与行人对象108(例如,婴儿车)相关联,行人对象108可以使用本文描述的技术来检测。也即,本文描述的技术部分地涉及训练机器训练的模型以检测行人对象108。在这样的示例中,至少部分地基于确定行人对象108存在于环境100中,感知组件可以将边界区域110(或其他指示)与行人对象108相关联。也即,机器训练的模型可以检测行人104和行人对象108以及与检测到的对象中的每一个相关联的边界区域。在至少一个示例中,机器训练的模型可以将边界区域112(或其他指示)与边界区域106和边界区域110相关联,使得边界区域112包围边界区域106和边界区域110。也即,边界区域112可以指示带有对象复合对象的行人,其中行人104和行人对象108各自与边界区域112内的单独的边界区域相关联。
在至少一个示例中,传感器数据和相关联的边界区域(106、110和112)可以被提供给与车辆102相关联的预测组件和/或规划组件,如下面参考图4所描述的,以生成车辆102的轨迹,车辆102使用该轨迹穿越环境100。也即,可以将边界区域(106、110和112)提供给车辆102的下游组件以控制车辆102。下面提供附加细节。
图2示出了如本文描述的用于训练用于检测行人对象的模型的示例过程200。
如上文描述的,车辆可以与一个或多个传感器组件相关联,该传感器组件可以生成与车辆的环境相关联的传感器数据。这种传感器数据的一个示例可以包括激光雷达数据。例如,车辆可以与位于车辆拐角处、前部、后部、侧面和/或顶部的激光雷达传感器相关联。激光雷达传感器可以生成与车辆的环境相关联的激光雷达数据202。在至少一个示例中,一个或多个车辆可以将激光雷达数据202发送到与训练组件相关联的一个或多个计算设备。如下文描述的,激光雷达数据202可以用于训练模型。如上面指出的,车辆可以与附加的或替代的传感器组件相关联,每个传感器组件都可以生成它们自己的传感器数据。
在一些示例中,激光雷达数据202可以是由车辆车载的感知组件处理的激光雷达数据,或者激光雷达数据202可以是可以由与训练组件相关联的一个或多个计算设备处理的原始激光雷达数据。在至少一个示例中,模型(可以提供给车辆以供在车辆上车载使用)可以分析原始激光雷达数据以分割和分类对象。在一个示例中,原始激光雷达数据可以与体素空间相关联,该体素空间可以在三维空间中的体素网格中表示激光雷达数据。利用体素空间中表示的激光雷达数据,机器训练的模型可以分析激光雷达数据(在体素空间中表示)并输出与环境中检测到的单独的对象相关联的遮罩。在一些示例中,可以在平面视图或自上而下的透视图中表示遮罩(例如,“自上而下分割”)。激光雷达数据被分割和分类,使得单独的对象与遮罩相关联,可以称为“处理后的激光雷达数据”。在一些示例中,激光雷达数据可以与单独的像素或除体素之外的表示相关联,如本文描述的。
在图2中,激光雷达数据204的一部分(例如,处理后的激光雷达数据)以自上而下的透视图示出。如图所示,与激光雷达数据204的一部分相关联的体素中的一些体素与第一遮罩(白色填充)相关联,并且与激光雷达数据204的一部分相关联的体素中的一些体素与第二遮罩(黑色填充)相关联。第一遮罩(白色填充)遮罩和第二遮罩(黑色填充)遮罩可以与对象的不同分类相关联。例如,第一遮罩(白色填充)遮罩可以与行人分类相关联,而第二遮罩(黑色填充)可以与对象分类相关联。
在至少一个示例中,可以将激光雷达数据202(例如,处理后的激光雷达数据)提供给注释组件206。在至少一个示例中,注释组件206可以至少部分地基于激光雷达数据202来接收或以其他方式确定经注释的数据。在至少一个示例中,注释组件206可以接收经注释的数据208,其包括与行人对象系统(例如,行人和行人对象复合对象)相关联的标签和与行人相关联的标签。在至少一个示例中,“标签”可以是与相应的对象或复合对象相关联的边界区域,例如,边界框(或其他指示)。例如,如图2所示,第一边界区域210与激光雷达数据204中的与行人和行人对象系统相关联的部分相关联(例如,第一遮罩(白色填充)和第二遮罩(黑色填充)体素进行组合),而第二边界区域212与激光雷达数据204中的与行人相关联的部分相关联(例如,与白色填充相关联的遮蔽的体素)。在至少一个示例中,注释组件206可以使用机器训练的模型来分析经注释的数据208。在这样的示例中,注释组件206可以应用几何算法,其示例在下面描述,以便从经注释的数据208中的与第二边界区域212相关联的一部分中减去经注释的数据208中的与第一边界区域210相关联的至少一部分,以确定经注释的数据208中的与行人对象相关联的一部分。
在至少一个示例中,注释组件206可以获取两个边界区域(例如,第一边界区域210和第二边界区域212)并计算与复合对象相关联的边界区域(例如,第一边界区域210)的主轴(例如,最长轴)。注释组件206然后可以利用启发法来确定行人对象的位置。例如,注释组件206可以假设行人对象位于与行人相关联的第二边界区域212和第一边界区域210沿着主轴的最远边缘之间。注释组件206然后可以基于第一边界区域210的最远边缘(和相关联的拐角)和与行人相关联的第二边界区域212之间的区域来构造行人对象的边界。注释组件206然后可以将第三边界区域214与激光雷达数据204中的与行人对象相关联的部分相关联。
在附加或替代示例中,注释组件206可以分析激光雷达数据204以例如至少部分地基于占用来确定行人对象的位置。
在至少一个示例中,注释组件206可以将第三边界区域214与激光雷达数据204中的与行人对象相关联的部分相关联。也即,注释组件206可以注释激光雷达数据204的部分以指示与激光雷达数据204的部分相关联的哪些体素与行人对象相关联。因此,注释组件206可以注释激光雷达数据204的部分以包括与行人相关联的第一边界区域210和与行人对象相关联的第三边界区域214。所得输出216因此可以包括与标记行人和相关联的行人对象的注释(例如,边界区域210和边界区域214)相关联的激光雷达数据。
在至少一个示例中,可以将训练输入数据218提供给训练组件220。训练输入数据218可以包括来自注释组件206的输出,例如,上面参考图2描述的所得输出216。此外,在一些示例中,训练输入数据218可以经由除上述之外的附加或替代注释过程来注释。例如,在一些示例中,注释组件206可以接收包括与行人(例如,与其相关联的激光雷达数据)相关联的注释(例如,边界区域)和与行人对象(例如,与其关联的激光雷达数据)相关联的注释(例如,边界区域)。这样的数据可以包括训练输入数据218。虽然示出了单个所得输出216,但是训练输入数据218可以包括与各种行人和行人对象相关联的聚合数据。
在一些示例中,训练组件220可以接收训练输入数据218并且可以将损失权重掩码应用于训练输入数据218,使得与行人对象相关联的体素的权重大于与行人和/或其他对象相关联的体素的权重。也即,在至少一个示例中,可以将乘法掩码应用于训练输入数据218以强调与行人对象相关联的激光雷达数据202的区域。参考图2,训练组件220可以将对应于行人对象的体素(例如,与边界区域214相关联的体素)与相比对应于行人的体素(例如,与边界区域210相关联的体素)更大的权重相关联。在至少一个示例中,即使行人对象(例如,与车辆、行人、骑自行车者和其他对象相比时)在车辆的环境中不经常被检测到,这种损失权重掩码也可以使机器训练的模型学习与行人对象相关联的新分类。在一些示例中,行人对象可以与不同的语义类别相关联(例如,婴儿车、手提箱、雨伞、大箱子、儿童(例如,被抱着的)、摩托车、手推车、轮椅等)。然而,当训练模型222时,训练组件220可以将与不同语义类别相关联的行人对象合并为行人对象的单个分类。
在至少一个示例中,训练组件220可以至少部分地基于训练输入数据218来训练模型222以输出与行人对象相关联的分类。在至少一个示例中,训练组件220可以使用机器学习技术来训练数据模型。例如,在至少一个示例中,可以使用训练输入数据218来训练神经网络。作为示例,训练组件220可以将训练输入数据218输入到模型222中。模型222可以确定与行人对象的指示相关联的输出。训练组件220可以将输出与经注释的数据(例如,训练输入数据218)进行比较以确定差异。在至少一个示例中,训练组件220可以至少部分地基于该差异来修改模型的一个或多个参数。
如上文描述的,除了包括但不限于行人、车辆、自行车等的其他对象之外,所得模型222可以输出与行人对象相关联的分类。也即,训练组件220可以针对对应于行人对象的附加输出头部来训练模型222。
在至少一个示例中,模型222可以提供给一个或多个车辆224,该一个或多个车辆224可以被配置为至少部分地基于模型222的输出来控制。下面参考图3描述与使用模型222相关联的附加细节。
图3示出了如本文描述的用于检测行人对象并确定与其相关联的运动的示例过程300。
如上面参考图2所描述的,车辆可以与一个或多个传感器组件相关联,该传感器组件可以生成与车辆的环境相关联的传感器数据。这种传感器数据的一个示例可以包括可以与车辆的环境相关联的激光雷达数据302。在至少一个示例中,车辆的感知组件可以接收激光雷达数据302(例如,来自与其相关联的激光雷达传感器),其一部分(例如,激光雷达数据304的一部分)的示例在图3中示出。如上文指出的,车辆可以与附加的或替代的传感器组件相关联,其中的每个传感器组件都可以生成它们自己的传感器数据。
在至少一个示例中,激光雷达数据302可以输入到上面参考图2训练的模型222中。在至少一个示例中,模型222可以分析激光雷达数据302并且可以输出一个或多个观测306。在至少一个示例中,观测可以是已经被分类(例如,由模型222分类)到特定类别(例如,与对象相关联)的独立、连续空间段。在至少一个示例中,观测306之一可以与行人相关联。示出了激光雷达数据304的一部分的放大视图。放大视图308示出了与指示多个体素310与行人分类相关联的第一遮罩(白色填充)相关联的多个体素310。行人可以与边界区域312(或其他指示)相关联。
在至少一个示例中,观测306中的每一个可以被提供给跟踪组件314,由此跟踪组件314可以利用观测306中的每一个的指示来随着时间跟踪对应的对象。也即,跟踪组件314可以遍历车辆的环境中的识别出的观测306中的每一个(和相关联的对象)。每个观测和相关联的对象可以与指示316(A)-316(N)(统称为指示316)相关联。
与车辆的环境中的不同对象(例如,对象A-N)相关联的指示316可以各自与状态318(A)-318(N)(统称为状态318)相关联。每个状态可以指示行人对象是否与行人相关联,并且如果行人对象与行人相关联,则指示与其相关联的信息。在至少一个示例中,如果行人与行人对象相关联,则状态可以包括如下文描述的信息。然而,如果行人不与行人对象相关联,或者观测不与行人相关联(因此,不与行人对象相关联),则状态可以为空或禁用。
在至少一个示例中,状态可以与行人是否与行人对象相关联的第一指示相关联。第一指示可以是初步指示,并且可以基于模型222的输出。也即,如上文描述的,模型222可以检测行人对象。如果在行人附近检测到行人对象,则可以将状态与对此的第一(初步)指示相关联。
在至少一个示例中,状态可以包括指示行人与行人对象相关联的可能性的分数。在一些示例中,可以至少部分地基于分析随时间接收的(例如,激光雷达)数据的一个或多个部分来确定分数,并且基于是否在行人附近(例如,阈值距离内)检测到行人对象的实例来修改分数。也即,分数可以随时间持续,从而分数可以提供关于行人对象的存在(或不存在)的准确信号(例如,当与模型222在特定实例的单个输出相比较时)。在至少一个示例中,如果分数大于或等于阈值,则跟踪组件314可以将第二指示(例如,置信指示)与状态相关联,以确认行人对象与行人相关联。在一些示例中,这样的第二指示可以是布尔(Boolean)指示(例如,真或假)。下面参考图7-8描述与确定分数相关联的附加细节。
在一些示例中,对象可以被模型222检测到但可能不被分类为行人对象。在这样的示例中,跟踪组件314可以在将第二指示(例如,置信指示)与状态相关联之前分析一个或多个附加标准以确定对象是行人对象。在至少一个示例中,跟踪组件314可以考虑(i)面积交叉率,(ii)检测到的对象是否与检测到的行人重叠,以及(iii)对象是否被分类为行人。在至少一个示例中,面积交叉率可以表示与行人对象相关联的最佳猜测与对象的当前检测重叠的程度。如果面积交叉率大于或等于阈值,则跟踪组件314可以将置信指示与状态相关联(只要满足其他两个标准)。在至少一个示例中,如果检测到的对象与检测到的行人重叠,则跟踪组件314可以避免将置信指示与状态相关联。也即,跟踪组件314可以将置信指示与状态相关联,只要检测到的对象不与检测到的行人重叠(例如,状态与其相关联的指示)(只要满足其他两个标准)。此外,只要对象未被分类为行人,跟踪组件314就可以将置信指示与状态相关联(只要满足其他两个标准)。也即,在至少一个示例中,如果检测到的对象被分类为行人,则跟踪组件314可以避免将置信指示与状态相关联。在一些示例中,如果状态与置信指示相关联,指示对象与行人相关联(因此是行人对象),则这样的分类可以覆盖由模型222输出的原始分类。
在至少一个示例中,状态可以与行人对象的一个或多个姿态相关联,姿态可以包括输出位置(例如,基于模型222)和/或估计位置(例如,其可以包括输出位置,但比输出位置占据更多空间)。在一些示例中,估计位置可以是当前观测和一个或多个先前观测的递归平均值,其可以通过使用相对于行人的姿态计算的指数加权移动平均值来确定。在一些示例中,估计位置可能无法确定(例如,如果与模型222相关联的噪声度量低于阈值)。下面参考图6描述与确定状态和相关联的位置相关联的附加细节。
在一些示例中,跟踪组件314可以将运动学模型与状态相关联。这种运动学模型(例如,与行人对象相关联)可以至少部分地基于与行人相关联的运动学模型。在至少一个示例中,跟踪组件314可以基于行人对象的特性(例如,行人对象的质量、行人对象的密度、行人对象的语义属性等)确定行人对象的运动学模型。在至少一个示例中,运动学建模可以用于向前传播先前观测以确定与(例如,观测306中的)当前观测的重叠,并且如果先前观测与当前观测重叠,则将观测相关联。也即,在一些示例中,跟踪组件314可以利用运动学模型来将随时间接收(例如,用于随时间跟踪对象)的新传感器数据(例如,激光雷达数据)中的对象(例如,行人和行人对象)相关联。
在至少一个示例中,如果状态指示行人与行人对象相关联,则跟踪组件314可以将边界区域(或其他指示)与激光雷达数据304中的对应于行人对象的部分相关联。在图3中,边界区域320被示出为与多个体素322相关联,该多个体素322与第二遮罩(黑色填充)(例如,指示对象)相关联。在至少一个示例中,至少部分地基于检测到行人和行人对象,跟踪组件313可以将边界区域324与行人和行人对象相关联。也即,跟踪组件314可以输出包围边界区域312和边界区域320的边界区域324。边界区域324可以表示复合对象(例如,行人/行人对象系统)。在至少一个示例中,对象的指示(例如,边界区域312、320和324)和相关联的状态326可以被提供给一个或多个其他车辆组件328,其可以包括预测组件和/或规划组件。下面参考图4描述与预测组件和/或规划组件相关联的附加细节。
图4是示出用于执行如本文描述的技术的示例系统400的框图。在至少一个示例中,可以对应于以上参考图1描述的车辆102的车辆402可以包括一个或多个车辆计算设备404、一个或多个传感器组件406、一个或多个发射器408、一个或多个通信连接410、至少一个直接连接412和一个或多个驱动系统414。如上文描述的,车辆402可以是自主车辆,其被配置为根据美国国家公路交通安全管理局发布的5级分类进行操作,该分类描述了能够在整个行程中执行所有安全关键功能的车辆,其中驾驶员(或乘员)不被期望在任何时候控制车辆。在这样的示例中,由于车辆402可以被配置为控制从启动到停止的所有功能,包括所有停车功能,所以它可以是未被占用的。这仅是一个示例,并且本文描述的系统和方法可以并入到任何地面、空中或水上交通工具中,包括从始终需要由驾驶员手动控制的交通工具到那些部分或完全自主控制的交通工具。也即,在图示的示例中,车辆402是自主车辆;然而,车辆402可以是任何其他类型的交通工具。虽然在图4中仅图示了单个车辆402,但在实际应用中,示例系统400可以包括多个车辆,在一些示例中,这些车辆可以包括车队。
车辆计算设备404可以包括处理器416和与处理器416通信耦合的存储器418。在所示示例中,车辆计算设备404的存储器418存储定位组件420、感知组件422、预测组件424、规划组件426和一个或多个系统控制器428。另外,存储器418可以包括存储装置430,其可以存储地图、模型、先前的输出,等等。如上文描述的,地图可以是能够提供关于环境的信息的任意数量的数据结构,例如但不限于拓扑(例如,路口、车道、合并区域等)、街道、山脉、道路、地形和一般环境。地图可以与真实环境或模拟环境相关联。模型可以包括机器学习的模型,如下文描述的。在一些示例中,存储装置430可以存储先前的输出。
在至少一个示例中,定位组件420可以至少部分地基于从传感器组件406接收的传感器数据和/或与(例如,地图中的)地图相关联的地图数据来确定车辆402相对于局部和/或全局地图的姿态(位置和朝向)。在至少一个示例中,定位组件420可以包括校准组件或与校准组件相关联,该校准组件能够基本上同时执行校准(确定与传感器组件406中的任何一个或多个相关联的各种内在和外在参数)、定位和映射操作。
在至少一个示例中,感知组件422可以至少部分地基于从传感器组件406接收的传感器数据来执行对象检测、分割和/或分类。在至少一个示例中,感知组件422可以接收原始传感器数据(例如,来自传感器组件406)。在至少一个示例中,感知组件422可以接收传感器数据并且可以利用一种或多种处理算法来关于在传感器数据中识别的对象执行对象检测、分割和/或分类。在一些示例中,感知组件422可以将边界区域(或另外的实例分割)与识别的对象相关联,并且可以将与识别的对象的分类相关联的置信度分数与识别的对象相关联。在一些示例中,对象在经由显示器呈现时,可以基于它们的被感知的类别来着色。虽然本文描述的技术是关于激光雷达数据进行描述的,但感知组件422可以对一种或多种传感器模态执行类似的过程,包括但不限于图像数据、激光雷达数据等。
在至少一个示例中,感知组件422可以包括跟踪组件432。跟踪组件432可以对应于上面参考图3描述的跟踪组件314。在至少一个示例中,跟踪组件432可以接收与传感器数据相关联的观测。每个观测可以与在车辆402的环境中检测到的对象相关联。在至少一个示例中,跟踪组件432可以确定这样的观测是否与其他对象(例如,行人对象)相关联,并且可以确定对象的指示,该指示可以提供给与车辆计算设备404相关联的其他组件。
预测组件424可以接收来自传感器组件406的传感器数据、与(例如,可以在存储装置430中的地图中的)地图相关联的地图数据、和/或从感知组件422输出的感知数据(例如,处理后的传感器数据),并且可以输出与车辆402的环境内的一个或多个对象相关联的预测。在至少一个示例中,规划组件426可以至少部分地基于从传感器组件406接收的传感器数据、地图数据和/或车辆402的其他组件做出的任何确定来确定输出,以用于控制车辆402。
可以在2017年4月4日发布的美国专利第9,612,123号和2019年7月16日发布的美国专利第10,353,390号中找到可用的定位组件、感知组件、预测组件和/或规划组件的附加详细信息,两者的全部内容通过引用并入本文。在一些示例中(例如,在车辆402不是自主车辆的情况下),可以从车辆402中省略上述组件中的一个或多个组件。虽然上述组件被示为是车辆402“车载”的,但在其他实施方式中,组件可以远程定位和/或可被车辆402访问。此外,虽然组件在上面被描述为“组件”,但是这样的组件可以包括一个或多个组件,其可以是系统的一部分,用于执行归属于组件中的每个组件的操作。
在至少一个示例中,定位组件420、感知组件422、预测组件424和/或规划组件426可以如上文描述的处理传感器数据,并且可以通过网络434将它们的相应输出发送到计算设备436。在至少一个示例中,定位组件420、感知组件422、预测组件424和/或规划组件426可以这样将它们的相应输出发送到计算设备436:以特定频率、在预定时间段过去之后、接近实时地,等等。
在至少一个示例中,车辆计算设备404可以包括一个或多个系统控制器428,其可以被配置为控制车辆402的转向、推进、制动、安全、发射器、通信和其他系统。这些系统控制器428可以与驱动系统414的对应系统和/或车辆402的其他系统通信和/或控制这样的系统。
在至少一个示例中,传感器组件406可以包括激光雷达传感器、雷达传感器、超声换能器、声纳传感器、位置传感器(例如,GPS、指南针等)、惯性传感器(例如,惯性测量单元、加速度计、磁力计、陀螺仪等)、相机(例如,RGB、IR、强度、深度等)、车轮编码器、音频传感器、环境传感器(例如,温度传感器、湿度传感器、光传感器、压力传感器等)、ToF传感器等。传感器组件406可以向车辆计算设备404提供输入。在一些示例中,传感器组件406可以在将传感器数据发送到车辆计算设备404之前预处理传感器数据中的至少一些传感器数据。在至少一个示例中,传感器组件406可以经由网络434这样将传感器数据发送到计算设备436:以特定频率、在预定时间段过去之后、接近实时地,等等。
如上文描述的,车辆402还可以包括用于发射光和/或声音的一个或多个发射器408。该示例中的发射器408包括用于与车辆402的乘客通信的内部音频和视觉发射器。作为示例而非限制,内部发射器可以包括扬声器、灯、标志、显示屏、触摸屏、触觉发射器(例如,振动和/或力反馈)、机械致动器(例如,安全带张紧器、座椅定位器、头枕定位器等)等。该示例中的发射器408还包括外部发射器。通过示例而非限制,该示例中的外部发射器包括:光发射器(例如,指示灯、标志、灯阵列等),用于与行人、其他驾驶员、其他附近车辆等进行视觉通信;一个或多个音频发射器(例如,扬声器、扬声器阵列、喇叭等),用于与行人、其他驾驶员、其他附近车辆等进行听觉通信。在至少一个示例中,发射器408可以定位在车辆402的外部和/或内部的各种位置。
车辆402还可以包括使得能够在车辆402和其他本地或远程计算设备之间进行通信的通信连接410。例如,通信连接410可以促进与车辆402和/或驱动系统414上的其他本地计算设备的通信。而且,通信连接410可以允许车辆与附近的其他计算设备(例如,附近的其他车辆、交通信号灯等)进行通信。通信连接410还使得车辆402能够与远程遥操作计算设备或其他远程服务进行通信。
通信连接410可以包括用于将车辆计算设备404连接到另一个计算设备或网络(例如,网络434)的物理和/或逻辑接口。例如,通信连接410可以实现基于Wi-Fi的通信,例如,经由通过IEEE802.11标准定义的频率、诸如的短程无线频率、或使得相应的计算设备能够与其他计算设备交互的任何合适的有线或无线通信协议。
直接连接412可以直接连接驱动系统414和车辆402的其他系统。
在至少一个示例中,车辆402可以包括驱动系统414。在一些示例中,车辆402可以具有单个驱动系统414。在至少一个示例中,如果车辆402具有多个驱动系统414,则单独的驱动系统414可以定位在车辆402的相对端(例如,前部和后部等)。在至少一个示例中,驱动系统414可以包括传感器组件,以检测驱动系统414和/或车辆402周围环境的状况。通过示例而非限制,传感器组件可以包括用于感测驱动模块的车轮的旋转的车轮编码器(例如,旋转编码器)、用于测量驱动模块的位置和加速度的惯性传感器(例如,惯性测量单元、加速度计、陀螺仪、磁力计等)、相机或其他图像传感器、用于声学检测驱动模块的周围环境中的对象的超声波传感器、激光雷达传感器、雷达传感器等。一些传感器,例如车轮编码器,对于驱动系统414可以是唯一的。在一些情况下,驱动系统414上的传感器组件可以与车辆402的对应系统(例如,传感器组件406)重叠或对其进行补充。
驱动组件414可以包括许多车辆系统,包括高压电池、用于推进车辆402的电动机、用于将来自电池的直流电转换成交流电以供其他车辆系统使用的逆变器、包括转向电动机和转向齿条(其可能是电动的)的转向系统、包括液压或电动致动器的制动系统、包括液压和/或气动组件的悬挂系统、用于分配制动力以减轻牵引力损失并保持控制的稳定性控制系统、HVAC系统、照明(例如,用于照亮车辆外部的周围环境的头灯/尾灯之类的照明)和一个或多个其他系统(例如,冷却系统、安全系统、车载充电系统、其他电气组件,例如,DC/DC转换器、高压接头、高压电缆、充电系统、充电端口等)。另外,驱动组件414可以包括驱动模块控制器,其可以接收和预处理来自传感器组件的数据并控制各种车辆系统的操作。在一些示例中,驱动模块控制器可以包括处理器以及与处理器通信耦合的存储器。该存储器可以存储一个或多个模块以执行驱动系统414的各种功能。此外,驱动系统414还可以包括通信连接,其使得相应驱动模块能够与其他本地或远程计算设备通信。
在图4中,车辆计算设备404、传感器组件406、发射器408和通信连接410示出为是车辆402车载的。然而,在一些示例中,车辆计算设备404、传感器组件406、发射器408和通信连接410可以在实际车辆之外(即,不是车辆402车载的)实现。
如上文描述的,车辆402可以经由网络434向计算设备436发送传感器数据。在一些示例中,车辆402可以向计算设备436发送原始传感器数据。在其他示例中,车辆402可以将处理后的传感器数据和/或传感器数据的表示发送到计算设备436(例如,从定位组件420、感知组件422、预测组件424和/或规划组件426输出的数据)。在一些示例中,车辆402可以这样将传感器数据发送到计算设备436:以特定频率、在预定时间段过去之后、接近实时地,等等。
计算设备436可以接收来自车辆402和/或其他数据收集设备的传感器数据(原始的或处理后的),以及来自一个或多个第三方源和/或系统的数据。在至少一个示例中,计算设备436可以包括处理器438和与处理器438通信耦合的存储器440。在所示示例中,计算设备436的存储器440存储训练组件442,其可以包括注释组件444、地图存储装置446(例如,存储一个或多个地图)、训练数据存储装置448(例如,存储训练组件442可访问的训练数据)以及模型存储装置450(例如,由训练组件442输出的模型)。在一些示例中,不是与计算设备436的存储器440相关联,或者除了与计算设备436的存储器440相关联,系统和/或存储库中的一个或多个可以与车辆402或与系统400相关联的其他计算设备相关联。
在至少一个示例中,训练组件442可以训练数据模型,该数据模型可以用于如本文描述的各种操作。训练组件442可以对应于上面参考图2描述的训练组件220,并且注释组件444可以对应于上面参考图2描述的注释组件206。上面参考图2描述了与组件中的每个组件相关联的细节。
如上面参考图2所描述的,训练组件442可以至少部分地基于训练输入数据(例如,从注释组件444接收的)来训练模型以输出与行人对象相关联的分类。在至少一个示例中,训练组件442可以使用机器学习技术训练数据模型。例如,用于训练机器学习模型的机器学习算法可以可以包括但不限于:回归算法(例如,普通最小二乘回归(OLSR)、线性回归、逻辑回归、逐步回归、多元自适应回归样条(MARS)、局部估计散点图平滑(LOESS)),基于示例的算法(例如,岭回归、最小绝对收缩和选择算子(LASSO)、弹性网络、最小角度回归(LARS)),决策树算法(例如,分类和回归树(CART)、迭代二分法3(ID3)、卡方自动交互检测(CHAID)、决策树桩、条件决策树),贝叶斯算法(例如,朴素贝叶斯、高斯朴素贝叶斯、多项朴素贝叶斯、平均单依赖估计器(AODE)、贝叶斯信念网络(BNN)、贝叶斯网络),聚类算法(例如,k均值、k中值、期望最大化(EM)、层次聚类),关联规则学习算法(例如,感知机(perceptron)、反向传播、跳场网络、径向基函数网络(RBFN)),深度学习算法(例如,深度玻尔兹曼机(DBM)、其他深度信念网络(DBN)、人工神经网络(ANN)、堆叠自动编码器),降维算法(例如,主成分分析(PCA)、主成分回归(PCR)、偏最小二乘回归(PLSR)、Sammon映射、多维缩放(MDS)、投影追踪、线性判别分析(LDA)、混合判别分析(MDA)、二次判别分析(QDA)、灵活判别分析(FDA)),SVM(支持向量机),监督学习,无监督学习,半监督学习等。所得数据模型可以存储在模型存储装置450和/或车辆402上的存储装置430中,并且可以由车辆计算设备404的一个或多个组件接近实时地访问。
车辆402的处理器416和计算设备436的处理器438可以是能够执行指令以处理数据和执行如本文描述的操作的任何合适的处理器。通过示例而非限制,处理器416和438可以包括一个或多个中央处理单元(CPU)、图形处理单元(GPU)或处理电子数据以将该电子数据转换为可以存储在寄存器和/或存储器中的其他电子数据的任何其他设备或设备的一部分。在一些示例中,集成电路(例如,ASIC等)、门阵列(例如,FPGA等)和其他硬件设备也可以被认为是处理器,只要它们被配置为实现编码指令。
存储器418和440是非暂时性计算机可读介质的示例。存储器418和440可以存储操作系统和一个或多个软件应用、指令、程序和/或数据,以实现本文描述的方法和归属于各种系统的功能。在各种实施方式中,存储器可以使用任何合适的存储器技术来实施,例如,静态随机接收存储器(SRAM)、同步动态RAM(SDRAM)、非易失性/闪速型存储器或能够存储信息的任何其他类型的存储器。这里描述的架构、系统和单独的元素可以包括许多其他逻辑、程序和物理组件,其中附图中所示的那些仅仅是与本文讨论相关的示例。
需要注意的是,尽管图4被示为分布式系统,但在一些示例中,车辆402的组件可以与计算设备436相关联和/或计算设备436的组件可以与车辆402相关联。也即,车辆402可以执行与计算设备436相关联的功能中的一个或多个功能,反之亦然。
附图5-8是示出涉及如本文描述的技术的示例过程的流程图。为了方便和易于理解,参照图4所示的系统400来描述图5-8所示的过程。然而,图5-8所示的过程不限于使用系统400执行。此外,本文描述的系统400不限于执行图5-8所示的过程。
过程500-800被示为逻辑流程图中的框的集合,其表示可以以硬件、软件或其组合实现的操作序列。在软件的上下文中,框表示存储在一个或多个计算机可读存储介质上的计算机可执行指令,该指令当由处理器执行时,执行所引述的操作。通常,计算机可执行指令包括执行特定功能或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等。描述操作的顺序不旨在被解释为限制,并且可以以任何顺序和/或并行地组合任何数量的所描述的框以实现这些过程。在一些实施例中,可以完全省略该过程的一个或多个框。此外,过程500-800可以彼此整体或部分组合或与其他过程整体或部分组合。
图5示出了如本文描述的用于训练用于检测行人对象的模型的示例过程500。
框502示出接收传感器数据。如上文描述的,车辆402可以与一个或多个传感器组件406相关联,传感器组件406可以生成与车辆402的环境相关联的传感器数据。这种传感器数据的一个示例可以包括激光雷达数据。在至少一个示例中,一个或多个车辆可以经由网络434向计算设备436发送激光雷达数据。如上文描述的,在一些示例中,激光雷达数据可以是由车辆402车载的感知组件422处理的激光雷达数据,和/或激光雷达数据可以是可以由计算设备436处理的原始激光雷达数据。在至少一个示例中,模型(可以被提供给车辆以供在车辆上车载使用和/或由计算设备436使用)可以分析原始激光雷达数据以分割和分类对象。在一个示例中,原始激光雷达数据可以与体素空间相关联,该体素空间可以在三维空间中的体素网格中表示激光雷达数据。利用体素空间中表示的激光雷达数据,机器训练的模型可以分析激光雷达数据(在体素空间中表示),并输出与环境中检测到的单独的对象相关联的遮罩。在一些示例中,可以在平面视图或自上而下的透视图中表示遮罩(例如,“自上而下分割”)。激光雷达数据已经被分割和分类,使得单独的对象与遮罩相关联,可以称为“处理后的激光雷达数据”。在一些示例中,激光雷达数据可以与单独的像素或除体素之外的表示相关联,如本文描述的。
框504示出接收经注释的数据,包括带有对象的行人的指示和行人的指示。在至少一个示例中,可以将激光雷达数据(例如,处理后的激光雷达数据)提供给与训练组件442相关联的注释组件444。在至少一个示例中,注释组件444可以至少部分地基于激光雷达数据来接收或以其他方式确定经注释的数据。在至少一个示例中,注释组件444可以接收包括与行人对象系统(例如,行人和行人对象复合对象)相关联的标签和与行人相关联的标签的经注释的数据。在至少一个示例中,“标签”可以是与相应的对象或复合对象相关联的边界区域(或其他指示)。
框506示出确定行人对象的指示。在至少一个示例中,注释组件444可以使用机器训练的模型来分析经注释的数据。在这样的示例中,注释组件444可以应用几何算法,以便从经注释的数据中的与第二边界区域相关联的一部分中减去经注释的数据中的与第一边界区域相关联的至少一部分,以确定经注释的数据中的与行人对象相关联的一部分。
在至少一个示例中,注释组件444可以将第三边界区域与激光雷达数据中的与行人对象相关联的部分相关联。也即,注释组件444可以注释激光雷达数据的部分以指示与激光雷达数据的部分相关联的哪些体素与行人对象相关联。因此,注释组件444可以注释激光雷达数据的部分以包括与行人相关联的第一边界区域和与行人对象相关联的第三边界区域。因此,所得输出可以包括与标记行人和相关联的行人对象的注释相关联的激光雷达数据。
如上文描述的,可以利用附加的或替代的注释过程来确定与行人相关联的注释、指示或其他标签以及与行人对象相关联的注释、指示或其他标签。
框508示出将行人的指示和行人对象的指示输入到模型中以确定与行人对象相关联的输出。在至少一个示例中,可以将训练输入数据提供给训练组件442。训练输入数据可以包括来自注释组件444的输出,其可以包括标记有与行人和行人对象相关联的边界区域或其他指示的激光雷达数据。
在一些示例中,训练组件442可以接收训练输入数据,并且可以将损失权重掩码应用于训练输入数据,使得与行人对象相关联的体素的权重大于与行人和/或其他对象相关联的体素的权重。也即,在至少一个示例中,可以将乘法掩码应用于训练输入数据以强调与行人对象相关联的激光雷达数据的区域。在至少一个示例中,即使在车辆的环境中很少检测到行人对象(例如,与车辆、行人、骑自行车者和其他对象相比时),这种损失权重掩码也可以使得机器训练的模型能够学习与行人对象相关联的新分类。在一些示例中,行人对象可以与不同的语义类别相关联(例如,婴儿车、手提箱、雨伞、大箱子、儿童、摩托车、手推车、轮椅等)。然而,训练组件442在训练模型时可以将与不同语义类别相关联的行人对象合并为行人对象的单个分类。
在至少一个示例中,训练组件442可以至少部分地基于训练输入数据来训练模型以输出与行人对象相关联的分类。在至少一个示例中,训练组件442可以使用机器学习技术训练数据模型。例如,在至少一个示例中,可以使用训练输入数据来训练神经网络。作为示例,训练组件442可以将训练输入数据输入到模型中。该模型可以确定与行人对象的指示相关联的输出。训练组件442可以将输出与经注释的数据(例如,训练输入数据)进行比较以确定差异。在至少一个示例中,训练组件442可以至少部分地基于该差异来修改模型的一个或多个参数。
如上文描述的,除了包括但不限于行人、车辆、自行车等的其他对象之外,所得模型可以输出与行人对象相关联的分类。也即,训练组件442可以针对对应于行人对象的附加输出头部来训练模型。
在一些示例中,过程500可以返回到框502以接收新的传感器数据并且至少部分地基于新接收的传感器数据来更新模型。
框510示出了将模型传输到被配置为由模型的输出控制的车辆。在至少一个示例中,可以将模型提供给一个或多个车辆,该车辆可以被配置为至少部分地基于模型的输出来控制。例如,模型可以从计算设备436传输到车辆402(例如,经由网络434),并且可以存储在与车辆402相关联的存储装置430中。因此,感知组件422可以访问模型以接近实时地分析传入的激光雷达数据(例如,来自传感器组件406)以控制车辆402。该模型可以提供给一个或多个附加车辆以用于类似用途。
虽然图5描述了检测行人和行人对象以用于训练模型以检测新的对象类别:行人对象,但本文描述的技术可以应用于任何数量类型的对象和附接到相应对象的相关联的对象(例如,其他相应的对象控制相关联的对象的运动),并修改其他相应的对象的几何形状。例如,本文描述的技术可以适用于检测车辆的打开的门、附接到自行车的儿童携带者,等等。也即,本文描述的技术不应被解释为限于检测行人和行人对象。
此外,虽然本文描述的技术针对分析激光雷达数据和训练用于检测行人对象的模型,但本文描述的技术可以适用于附加或替代类型的传感器数据,包括但不限于图像数据、声纳数据、雷达数据,等等。
图6示出了如本文描述的用于检测行人对象的示例过程600。
框602示出接收与车辆相关联的传感器数据。如上文描述的,车辆402可以与一个或多个传感器组件406相关联,传感器组件406可以生成与车辆的环境相关联的传感器数据。这种传感器数据的一个示例可以包括可以与车辆402的环境相关联的激光雷达数据。在至少一个示例中,车辆402的感知组件422可以接收激光雷达数据(例如,来自与其相关联的激光雷达传感器)。如上文指出的,车辆可以与附加的或替代的传感器组件相关联,其中的每个传感器组件都可以生成它们自己的传感器数据。
框604示出确定是否检测到行人。在至少一个示例中,激光雷达数据可以输入到上面参考图5训练的模型中。在至少一个示例中,模型可以分析激光雷达数据并且可以输出一个或多个观测。在至少一个示例中,观测可以是已经被分类(例如,由模型分类)到特定类别(例如,与对象相关联)的独立、连续空间段。在至少一个示例中,观测之一可以与行人相关联。在至少一个示例中,与行人相关联的激光雷达数据可以与边界区域(或其他指示)相关联。如果在激光雷达数据中没有检测到行人,则过程600可以返回到框602。
框606示出将第一边界区域与行人相关联,行人与行人的指示相关联。在至少一个示例中,至少部分地基于检测到行人,感知组件422可以将边界区域或其他指示与激光雷达数据中的对应于行人的部分相关联。此外,可以将观测中的每个观测提供给跟踪组件432,由此跟踪组件432可以将观测中的每个观测的指示与观测中的每个观测相关联,以用于随着时间跟踪对应对象。也即,跟踪组件432可以遍历车辆402的环境中的识别的观测中的每个观测(和相关联的对象)。每个观测和相关联的对象可以与指示相关联。
框608示出将状态与行人的指示相关联。在至少一个示例中,状态可以指示行人对象是否与行人相关联,并且如果行人对象与行人相关联,则指示与其相关联的信息。然而,如果行人不与行人对象相关联,或者观测不与行人相关联(因此,不与行人对象相关联),则状态可以为空或禁用。
框610示出确定行人是否与行人对象相关联。在至少一个示例中,上述模型可以检测行人对象。如果行人对象在行人的阈值距离内,则跟踪组件432可以确定行人与行人对象相关联。在至少一个示例中,跟踪组件432可以将行人与行人对象相关联的第一指示与状态进行关联。第一指示可以是初步指示,并且可以基于模型的输出。也即,如上文描述的,该模型可以检测行人对象。如果在行人附近检测到行人对象,则可以将状态与对此的第一(初步)指示相关联。
在至少一个示例中,状态可以另外包括指示行人与行人对象相关联的可能性的分数。在一些示例中,可以至少部分地基于分析随时间接收的传感器数据(例如,激光雷达数据)的一个或多个部分来确定分数,并且基于是否在行人附近(例如,阈值距离内)检测到行人对象的实例来修改分数。也即,分数可以随时间持续,以便分数可以提供关于行人对象的存在(或不存在)的准确信号(例如,当与模型在特定实例的单个输出进行比较时)。在至少一个示例中,如果分数大于或等于阈值,则跟踪组件432可以将第二指示(例如,置信指示)与状态相关联,以确认行人对象与行人相关联。在一些示例中,这样的第二指示可以是布尔(Boolean)指示(例如,真或假)。下面参考图7-8描述与确定分数相关联的附加细节。
在一些示例中,对象可以被模型检测到,但可能不会被分类为行人对象。在这样的示例中,跟踪组件432可以在将第二指示(例如,置信指示)与状态相关联之前分析一个或多个附加标准以确定对象是行人对象。在至少一个示例中,跟踪组件432可以考虑(i)面积交叉率,(ii)检测到的对象是否与检测到的行人重叠,以及(iii)对象是否被分类为行人。在至少一个示例中,面积交叉率可以表示与行人对象相关联的最佳猜测与对象的当前检测重叠的程度。如果面积交叉率大于或等于阈值,则跟踪组件432可以将置信指示与状态相关联(只要满足其他两个标准)。在至少一个示例中,如果检测到的对象与检测到的行人重叠,则跟踪组件432可以避免将置信指示与状态相关联。也即,跟踪组件432可以将置信指示与状态相关联,只要检测到的对象不与检测到的行人重叠(例如,状态与其相关联的指示)(只要满足其他两个标准)。此外,只要对象未被分类为行人,跟踪组件432就可以将置信指示与状态相关联(只要满足其他两个标准)。也即,在至少一个示例中,如果检测到的对象被分类为行人,则跟踪组件432可以避免将置信指示与状态相关联。在一些示例中,如果状态与置信指示相关联,指示对象与行人相关联(因此是行人对象),则这样的分类可以覆盖模型输出的原始分类。
在一些示例中,跟踪组件432可以将运动学模型与状态相关联。这种运动学模型(例如,与行人对象相关联)可以至少部分地基于与行人相关联的运动学模型。在至少一个示例中,跟踪组件432可以基于行人对象的特性(例如,行人对象的质量、行人对象的密度、行人对象的语义属性等)确定行人对象的运动学模型。在至少一个示例中,运动学建模可以用于向前传播先前观测以确定与(例如,观测306中的)当前观测的重叠,并且如果先前观测与当前观测重叠,则将观测相关联。也即,在一些示例中,跟踪组件314可以利用运动学模型来关联随时间接收的新传感器数据中的对象(例如,行人和行人对象)(例如,用于随时间跟踪对象)。
此外,在至少一个示例中,状态可以与行人对象的一个或多个姿态相关联,姿态可以包括输出位置(例如,基于模型)和/或估计位置(例如,可以包括输出位置但比输出位置占据更多空间)。在一些示例中,估计位置可以是当前观测和一个或多个先前观测的递归平均值,其可以通过使用相对于行人的姿态计算的指数加权移动平均值来确定。在一些示例中,估计位置可能无法被确定(例如,如果与模型相关联的噪声度量低于阈值)。
框612示出了将第二边界区域与行人对象相关联并且将第三边界区域与第一边界区域(例如,与行人相关联)和第二边界区域(例如,与行人对象相关联)相关联。在至少一个示例中,如果跟踪组件432确定状态与置信指示相关联,则跟踪组件432可以确定行人与行人对象相关联。在至少一个示例中,如果行人与行人对象相关联(例如,状态与对此的指示相关联),则跟踪组件432可以将第二边界区域与行人对象相关联并且将第三边界区域与第一边界区域(例如,与行人相关联)和第二边界区域(例如,与行人对象相关联)相关联。也即,在至少一个示例中,如果状态指示行人与行人对象相关联,则跟踪组件432可以将边界区域(或其他指示)与激光雷达数据的对应于行人对象的部分相关联。在至少一个示例中,至少部分地基于检测到行人和行人对象,跟踪组件432可以将边界区域与行人和行人对象相关联。也即,跟踪组件432可以输出包围第一边界区域(例如,与行人相关联)和第二边界区域(例如,与行人对象相关联)的边界区域。边界区域可以表示复合对象(例如,行人/行人对象系统)。
框614示出了将边界区域提供给预测组件和/或规划组件以控制车辆。在至少一个示例中,至少部分地基于跟踪组件432将第一边界区域、第二边界区域和第三边界区域与激光雷达数据相关联,跟踪组件432可以将行人/行人对象系统的指示的指示发送到一个或多个其他车辆组件,这样的组件可以包括预测组件424和/或规划组件426。在至少一个示例中,边界区域可与状态信息相关联,状态信息可以包括行人对象的一个或多个姿态。如上文描述的,位置信息(与姿态相关联)可以包括输出位置(例如,基于模型)和/或估计位置(例如,其可以包括输出位置但比输出位置占据更多空间)。在一些示例中,估计位置可以是当前观测和一个或多个先前观测的递归平均值,其可以通过使用相对于行人的姿态计算的指数加权移动平均值来确定。在一些示例中,估计位置可能无法确定(例如,如果与模型相关联的噪声度量低于阈值)。
如果没有检测到行人对象,则跟踪组件432可以将与对应于行人的边界区域(例如,第一边界区域)相关联的激光雷达数据发送到预测组件424和/或规划组件426。
如上文描述的,预测组件424和/或规划组件426可以确定用于控制车辆402的轨迹。
图7示出了如本文描述的用于确定行人对象是否与行人相关联的示例过程700。如上文描述的,在一些示例中,(如上文描述地训练的)模型可以输出行人与行人对象相关联的指示。在至少一个示例中,下面描述的分数可以用作对象是行人对象的确认,以努力确保车辆计算设备404做出准确的决策。
框702示出接收与传感器数据的一部分相关联的传感器数据。如上文描述的,车辆402可以与一个或多个传感器组件406相关联,传感器组件406可以生成与车辆的环境相关联的传感器数据。这种传感器数据的一个示例可以包括可以与车辆402的环境相关联的激光雷达数据。在至少一个示例中,车辆402的感知组件422可以接收激光雷达数据(例如,来自与其相关联的激光雷达传感器)。如上文描述的,车辆可以与附加的或替代的传感器组件相关联,其中的每个传感器组件都可以生成它们自己的传感器数据。在至少一个示例中,可以随时间接收传感器数据。例如,在一些示例中,激光雷达数据的一部分可以与定义的时间或与捕获激光雷达数据相关联的旋转相关联。随时间接收的传感器数据的这些部分可以接近实时地提供给感知组件422。
框704示出确定是否在行人的阈值距离内检测到对象。如上文参考图6的框604和606所描述的,在至少一个示例中,例如,激光雷达数据可以被输入到上面参考图5训练的模型中。在至少一个示例中,模型可以分析激光雷达数据并可以输出一个或多个观测。在至少一个示例中,观测可以是已经被分类(例如,由模型分类)到特定类别(例如,与对象相关联)的独立、连续的空间段。在至少一个示例中,观测之一可以与行人相关联。在至少一个示例中,与行人相关联的激光雷达数据可以与边界区域(或其他指示)相关联。在至少一个示例中,可以将观测中的每个观测提供给与感知组件422相关联的跟踪组件432,由此跟踪组件432可以将观测中的每个观测的指示与观测中的每个观测相关联,以用于在时间上跟踪对应的对象。也即,跟踪组件432可以遍历车辆402的环境中的识别出的观测中的每一个(和相关的对象)。每个观测和相关联的对象可以与指示相关联。
在至少一个示例中,跟踪组件432可以分析激光雷达数据的一部分以确定是否在行人的阈值距离内检测到对象。至少部分地基于确定在行人的阈值距离内检测到对象,跟踪组件432可以增加与状态相关联的分数,该状态与行人的指示相关联,如框706所示。在至少一个示例中,与行人的指示相关联的状态可以以0.0的分数开始。每次在行人的阈值距离内检测到对象时,跟踪组件432可以将分数增加一个量。
在至少一个示例中,如果未检测到对象和/或检测到对象但不在行人的阈值距离内,则跟踪组件432可以避免增加与状态相关联的分数,如框708所示。在一些示例中,如果未检测到对象和/或检测到对象但不在行人的阈值距离内,则跟踪组件432可以降低分数(例如,在如上文描述的行人对象的置信指示已经与状态相关联之后)。在一些示例中,如果未检测到对象和/或检测到对象但不在行人的阈值距离内,则跟踪组件432可以使分数保持不变。
框710示出确定分数是否大于或等于第一阈值。在至少一个示例中,跟踪组件432可以确定分数是否大于或等于第一阈值。第一阈值可以对应于跟踪组件432可以确信该对象是行人对象的分数。因此,至少部分地基于确定分数大于或等于第一阈值,跟踪组件432可以确定与行人的指示相关联的状态是否与对象是行人对象的置信指示相关联,如框712所示。也即,如果状态已经与置信指示相关联,则行人对象已经存在于随着时间接收到的(例如,激光雷达)数据的先前部分中,使得与状态相关联的分数已经高于第一阈值。然而,如果状态不与置信指示相关联,则分数先前未高于第一阈值。如果状态不与对象是行人对象的指示相关联,则跟踪组件可以将对象是行人对象的置信指示与状态相关联,如框714所示。在一些示例中,跟踪组件432可以避免关联对象是行人对象的置信指示,直到跟踪组件432确定该对象是否满足一个或多个附加标准。
在一些示例中,对象可以被模型检测到,但可能不会被分类为行人对象。在这样的示例中,跟踪组件432可以在将第二指示(例如,置信指示)与状态相关联之前分析一个或多个附加标准以确定对象是行人对象。在至少一个示例中,跟踪组件432可以考虑(i)面积交叉率,(ii)检测到的对象是否与检测到的行人重叠,以及(iii)对象是否被分类为行人。在至少一个示例中,面积交叉率可以表示与行人对象相关联的最佳猜测与对象的当前检测重叠的程度。如果面积交叉率大于或等于阈值,则跟踪组件432可以将置信指示与状态相关联(只要满足其他两个标准)。在至少一个示例中,如果检测到的对象与检测到的行人重叠,则跟踪组件432可以避免将置信指示与状态相关联。也即,跟踪组件432可以将置信指示与状态相关联,只要检测到的对象不与检测到的行人重叠(例如,状态与其相关联的指示)(只要满足其他两个标准)。此外,只要对象未被分类为行人,跟踪组件432就可以将置信指示与状态相关联(只要满足其他两个标准)。也即,在至少一个示例中,如果检测到的对象被分类为行人,则跟踪组件432可以避免将置信指示与状态相关联。在一些示例中,如果状态与置信指示相关联,指示对象与行人相关联(因此是行人对象),则这样的分类可以覆盖由模型输出的原始分类。
在附加的或替代的示例中,不需要应用这样的限制来将两者关联。作为非限制性示例,类似的技术和建模可以用于建模和跟踪两个(或更多)一起行进(例如,手牵手)的行人。在这样的示例中,可以放宽其他对象不是行人的限制。此外,在这样的示例中,尽管可以自行检测和跟踪行人,但如果提供了使用本文描述的技术将两者(或更多)链接起来的指示,则可以通过考虑更好的运动学模型来执行多个实体的更准确的状态传播。
在至少一个示例中,如果分数不大于或等于第一阈值(在框710处),则过程可以返回到框702。
框716示出确定分数是否等于最大分数。在至少一个示例中,跟踪组件432可以确定分数是否等于最大分数。如果分数等于最大分数,跟踪组件432可以确定是否仍在接收观测,如框718所示。也即,跟踪组件432可以确定是否仍在接收观测(例如,至少部分地基于激光雷达数据)。如果仍然接收到观测,则过程700可以返回到框702,直到不再接收到观测。如果不再接收到观测,则过程700可以进行到图8的框802。
如果分数不等于最大分数,则过程可以返回框702。
在至少一个示例中,对象是与行人相关联的行人对象的置信指示可以覆盖由模型最初输出的错误分类(或非分类)。如上面参考图6所描述的,如果确定行人与行人对象相关联,则跟踪组件432可以将第一边界区域与行人相关联,将第二边界区域与行人对象相关联,以及将第三边界区域与第一边界区域和第二边界区域相关联。也即,在至少一个示例中,如果状态指示行人与行人对象相关联,则跟踪组件432可以将边界区域(或其他指示)与激光雷达数据的对应于行人对象的部分相关联。在至少一个示例中,至少部分地基于检测到行人和行人对象,跟踪组件432可以将边界区域与行人和行人对象相关联。也即,跟踪组件432可以输出包围边界区域和边界区域的边界区域。边界区域可以表示复合对象(例如,行人/行人对象系统)。
在至少一个示例中,至少部分地基于跟踪组件432将第一边界区域、第二边界区域和第三边界区域与激光雷达数据相关联,跟踪组件432可以将行人/行人对象系统的指示的指示发送到一个或多个其他车辆组件326,其可以包括预测组件424和/或规划组件426。在至少一个示例中,边界区域可以与状态信息相关联,该状态信息可以包括行人对象的一个或多个姿态。如上文描述的,位置信息(与姿态相关联)可以包括输出位置(例如,基于模型)和/或估计位置(例如,其可以包括输出位置但比输出位置占据更多空间)。
图8示出了如本文描述的用于确定行人对象是否与行人相关联的示例过程800。
框802示出确定一段时间是否已经经过。在至少一个示例中,跟踪组件432可以确定自从接收到最后一次观测以来是否已经经过一段时间。如果该段时间已经经过,则跟踪组件432可以降低分数,如框804中所示。如果该段时间尚未经过,则跟踪组件432可以避免降低分数,如框806中所示,并且过程800可以返回到框802。
框808示出确定分数是否大于或等于第二阈值。在至少一个示例中,第二阈值可以小于第一阈值。至少部分地基于确定分数大于或等于第二阈值,过程800可以避免修改与行人的指示相关联的状态,如框810所示,并且可以返回框802,以确定另一段时间是否已经经过。如果分数小于第二阈值,则跟踪组件432可以解除(行人对象的)置信指示与状态的关联,如框812所示。在至少一个示例中,该段时间可以小于接收随着传感器数据(例如,激光雷达数据)的时间接收的传感器数据的新的部分的速率,使得衰减比上升慢,以确保如果存在行人对象,则检测到它并且车辆402可以对它作出响应。
示例条款
A、一种方法,包括:接收与环境相关联的传感器数据;至少部分地基于传感器数据接收经注释的数据,其中经注释的数据包括带有对象的行人的第一指示以及带有对象的行人的第一指示内的行人的第二指示;至少部分地基于经注释的数据确定与行人的第二指示相关联的行人对象的第三指示,其中行人的第二指示和行人对象的第三指示包括训练输入;将该练输入输入到模型中;通过模型确定包括行人对象的第四指示的输出;确定输出和经注释的数据之间的差异;至少部分基于差异修改模型的一个或多个参数;以及;以及将模型传输到被配置为由模型的另一个输出控制的车辆。
B、如段落A所述的方法,其中,确定行人对象的第三指示包括从经注释的数据中的与带有对象的行人的第一指示相关联的一部分中减去经注释的数据中的与行人的第二指示相关联的至少一部分。
C、如段落B所述的方法,其中,至少部分基于将几何算法应用于经注释的数据,从经注释的数据中的与带有对象的行人的第一指示相关联的一部分中减去经注释的数据中的与行人的第二指示相关联的至少一部分。
D、如段落A-C中任一项所述的方法,还包括将损失权重掩码应用于训练输入,其中,经注释的数据中的与行人对象的第三指示相关联的一部分的权重大于经注释的数据中的与行人的第二指示相关联的一部分的权重。
E、如段落A-D中任一项所述的方法,其中,传感器数据包括激光雷达数据,并且模型经由机器学习被训练以分割激光雷达数据并确定与激光雷达数据的单独的段相关联的分类,至少一个分类对应于行人对象。
F、一种系统,包括:一个或多个处理器;以及一种或多种非暂时性计算机可读介质,其存储指令,该指令当由一个或多个处理器执行时,使系统执行操作,该操作包括:接收与环境相关联的传感器数据;至少部分地基于传感器数据确定经注释的数据,其中,经注释的数据包括第一对象的第一指示和第二对象的第二指示,其中第一对象和第二对象包括复合对象;将训练输入输入到模型中,其中训练输入包括经注释的数据;通过模型确定包括第二对象的第三指示的输出;确定输出和经注释的数据之间的差异;以及至少部分地基于该差异来修改模型的一个或多个参数。
G、如段落F所述的系统,其中,经注释的数据还包括复合对象的第四指示,该操作还包括至少部分地基于从经注释的数据中的与复合对象的第四指示相关联的一部分中减去经注释的数据中的与第一对象的第一指示相关联的一部分来确定第二对象的第二指示。
H、如段落G所述的系统,其中,至少部分基于将几何算法应用于经注释的数据,从经注释的数据中的与复合对象的第四指示相关联的一部分中减去经注释的数据中的与第一对象的第一指示相关联的至少一部分。
I、如段落F-H中任一项所述的系统,还包括将损失权重掩码应用于训练输入,其中,经注释的数据中的与第二对象的第二指示相关联的一部分的权重大于经注释的数据中的与第一对象的第一指示相关联的一部分的权重。
J、如段落F-I中任一项所述的系统,该操作还包括将模型传输到至少一个车辆,该车辆被配置为由模型的另一输出控制。
K、如段落F-J中任一项所述的系统,其中,复合对象包括带有对象的行人,第一对象包括行人,并且第二对象包括行人对象。
L、如段落K所述的系统,其中,行人对象包括婴儿车、手提箱、雨伞、大箱子、儿童、摩托车、手推车或轮椅。
M、一种或多种非暂时性计算机可读介质,其存储指令,该指令当由一个或多个处理器执行时,使该一个或多个处理器执行操作,该操作包括:从与环境相关联的传感器数据确定与第一对象的第一指示和第二对象的第二指示相关联的经注释的数据,其中第一对象和第二对象包括复合对象;训练模型以至少部分地基于经注释的数据来确定与第二对象相关联的输出;以及将模型传输到至少一个车辆,该车辆被配置为由模型的另一输出控制。
N、如段落M所述的一种或多种非暂时性计算机可读介质,其中,训练模型包括:将经注释的数据输入模型;通过模型确定包括第二对象的第三指示的输出;确定输出和经注释的数据之间的差异;以及至少部分地基于该差异来修改模型的一个或多个参数。
O、如段落M或N所述的一种或多种非暂时性计算机可读介质,该操作还包括至少部分地基于第一对象的第一指示和复合对象的第三指示来确定第二对象的第二指示。
P、如段落O所述的一种或多种非暂时性计算机可读介质,其中,确定第二对象的第二指示包括从经注释的数据中的与复合对象的第三指示相关联的一部分中减去经注释的数据中的与第一对象的第一指示相关联的至少一部分。
Q、如段落M-P中任一项所述的一种或多种非暂时性计算机可读介质,还包括将损失权重掩码应用于经注释的数据,其中,经注释的数据中的与第二对象的第二指示相关联的一部分的权重大于经注释的数据中的与第一对象的第一指示相关联的一部分的权重。
R、如段落M-Q中任一项所述的一种或多种非暂时性计算机可读介质,其中,复合对象包括带有对象的行人,第一对象包括行人,并且第二对象包括行人对象。
S、如段落R所述的一种或多种非暂时性计算机可读介质,其中,复合对象与包括第一边界区域的第三指示相关联,第一对象的第一指示包括在第一边界区域内的第二边界区域,并且第二对象的第二指示包括在第一边界区域内的第三边界区域。
T、如段落M-S中任一项所述的一种或多种非暂时性计算机可读介质,其中,传感器数据包括激光雷达数据,并且模型经由机器学习被训练以分割激光雷达数据并确定与激光雷达数据的单独的段相关联的分类,至少一个分类对应于第二对象。
U、一种方法,包括:从与车辆相关的一个或多个传感器接收激光雷达数据;通过模型并至少部分地基于激光雷达数据检测靠近车辆的行人,行人检测包括第一边界区域;确定行人与行人对象相关联,行人对象包括第二边界区域;利用第三边界区域将第一边界区域与第二边界区域相关联,其中第三边界区域包围第一边界区域和第二边界区域;以及将第一边界区域、第二边界区域和第三边界区域提供给车辆的预测组件或规划组件中的至少一个,以用于控制车辆。
V、如段落U所述的方法,其中,确定行人与行人对象相关联包括从模型接收指示检测到行人对象的输出。
W、如段落V所述的方法,其中,确定行人与行人对象相关联至少部分地基于根据随时间分析激光雷达数据而确定的分数。
X、如段落W所述的方法,其中,至少部分基于以下各项确定分数:分析随时间接收的激光雷达数据的一个或多个部分;以及每次检测到行人对象时增加分数。
Y、如段落W或X所述的方法,还包括:确定分数大于或等于阈值;以及至少部分地基于确定分数大于或等于阈值来确定行人与行人对象相关联。
Z、一种系统,包括:一个或多个处理器;以及一种或多种非暂时性计算机可读介质,其存储指令,该指令当由一个或多个处理器执行时,使系统执行操作,该操作包括:从与车辆相关联的一个或多个传感器接收数据;确定与数据相关联的观测,其中,该观测与第一对象相关联;确定第一对象是否与第二对象相关联,其中,第一对象和第二对象包括复合对象;以及将第一对象的指示或复合对象的指示提供给车辆的预测组件或规划组件中的至少一个,以用于控制车辆。
AA、如段落Z所述的系统,该操作还包括至少部分地基于第一对象与第二对象的关联来将运动学模型与第二对象相关联。
AB、如段落AA所述的系统,该操作还包括:确定第二对象的语义分类;以及至少部分地基于语义分类来确定与第二对象相关联的运动学模型。
AC、如段落AA或AB所述的系统,其中,至少部分地基于运动学模型在随时间接收的新数据中将第一对象与第二对象相关联。
AD、如段落Z-AC中任一项所述的系统,该操作还包括至少部分地基于指示检测到的对象是否与对应于第二对象的分类相关联的分数来确定将第一对象与第二对象相关联。
AE、如段落AD所述的系统,该操作还包括:随时间分析数据的一个或多个部分;以及每次检测到的对象在第一对象的阈值距离内时,增加分数。
AF、如段落AD或AE所述的系统,该操作还包括:确定分数大于或等于第一阈值;以及至少部分地基于确定分数大于或等于第一阈值来确定第一对象与第二对象相关联。
AG、如段落AF所述的系统,其中,确定第一对象与第二对象相关联还至少部分地基于以下各项中的一个或多个:(i)面积交叉率,(ii)检测到的对象是否与第一对象重叠的指示,或(iii)检测到的对象是否被分类为与第一对象相同的类别的指示。
AH、如段落Z-AG中任一项所述的系统,该操作还包括:确定与第二对象相关联的至少一个位置,其中,至少一个位置包括:第二对象的输出位置,其中输出位置由被训练以检测至少第一对象和第二对象的模型输出;或者,第二对象的估计位置,其中,估计位置包括输出位置;以及将至少一个位置与复合对象的指示相关联。
AI、如段落Z-AH中任一项所述的系统,其中,复合对象包括带有对象的行人,第一对象包括行人,第二对象包括行人对象,并且其中,行人对象包括婴儿车、手提箱、雨伞、大箱子、儿童、摩托车、手推车或轮椅。
AJ、一种或多种非暂时性计算机可读介质,其存储指令,该指令当由一个或多个处理器执行时,使该一个或多个处理器执行操作,该操作包括:从与车辆相关联的一个或多个传感器接收数据;确定与数据相关联的观测,其中该观测与第一对象相关联;确定第一对象是否与第二对象相关联,其中第一对象和第二对象包括复合对象;以及向车辆的预测组件或规划组件中的至少一个提供第一对象的指示或复合对象的指示,以用于控制车辆。
AK、如段落AJ所述的一种或多种非暂时性计算机可读介质,该操作还包括:随时间分析数据的一个或多个部分;以及每次检测到的对象在第一对象的阈值距离内时增加分数,其中分数指示第一对象与第二对象相关联的可能性。
AL、如段落AK所述的一种或多种非暂时性计算机可读介质,该操作还包括:确定分数大于或等于阈值;以及确定第一对象与第二对象相关联。
AM、如段落AJ-AL中任一项所述的一种或多种非暂时性计算机可读介质,该操作还包括至少部分地基于第一对象与第二对象的关联来将运动学模型与第二对象相关联,其中,在随时间接收的新传感器数据中将第一对象与第二对象相关联是至少部分地基于运动学模型的。
AN、如段落AJ-AM中任一项所述的一种或多种非暂时性计算机可读介质,该操作还包括:确定第二对象的输出位置或第二对象的估计位置中的至少一个,其中估计位置是至少部分地基于输出位置和与第二对象相关联的一个或多个先前位置来确定的;以及如果与被训练以检测至少第一对象和第二对象的模型相关联的噪声度量大于或等于阈值,则利用复合对象的指示将估计位置提供给预测组件或规划组件中的至少一个,并且如果与模型相关联的噪声度量低于阈值,则利用复合对象的指示将输出位置提供给预测组件或规划组件中的至少一个。
虽然上述示例条款是针对一种特定实施方式进行描述的,但应理解,在本文档的上下文中,示例条款的内容还可以经由方法、设备、系统、计算机可读介质和/或另一种实施方式来实施。此外,示例A-AN中的任一个可以单独实施或与示例A-AN中的任何其他一个或多个组合实施。
结论
尽管已经描述了本文描述的技术的一个或多个示例,但其各种改变、添加、排列和等效物包括在本文描述的技术的范围内。
在示例的描述中,参考了构成其一部分的附图,这些附图通过图示的方式示出了要求保护的主题的具体示例。应当理解,可以使用其他示例并且可以进行改变或更改,例如,结构改变。这样的示例、改变或更改不一定脱离关于预期要求保护的主题的范围。虽然本文中的步骤可以以特定顺序呈现,但在某些情况下,可以改变顺序以便在不同时间或以不同顺序提供某些输入,而不改变所描述的系统和方法的功能。公开的程序也可以以不同的顺序执行。另外,本文中的各种计算不需要按照所公开的顺序执行,并且可以容易地实现使用计算的替代排序的其他示例。除了重新排序之外,计算还可以分解为具有相同结果的子计算。
Claims (15)
1.一种系统,包括:
一个或多个处理器;以及
一种或多种非暂时性计算机可读介质,其存储指令,所述指令当由所述一个或多个处理器执行时,使所述系统执行操作,所述操作包括:
从与车辆相关联的一个或多个传感器接收数据;
确定与所述数据相关联的观测,其中,所述观测与第一对象相关联;
确定所述第一对象是否与第二对象相关联,其中,所述第一对象和所述第二对象包括复合对象;以及
将所述第一对象的指示或所述复合对象的指示提供给所述车辆的预测组件或规划组件中的至少一个,以用于控制所述车辆。
2.根据权利要求1所述的系统,所述操作还包括:
至少部分地基于所述第一对象与所述第二对象的关联,将运动学模型与所述第二对象相关联;
确定所述第二对象的语义分类;以及
至少部分地基于所述语义分类,确定与所述第二对象相关联的所述运动学模型,
其中,在随时间接收的新数据中将所述第一对象与所述第二对象相关联是至少部分地基于所述运动学模型的。
3.根据权利要求1或2所述的系统,所述操作还包括:至少部分地基于指示检测到的对象是否与对应于所述第二对象的分类相关联的分数,确定将所述第一对象与所述第二对象相关联。
4.根据权利要求3所述的系统,所述操作还包括:
分析随时间的所述数据的一个或多个部分;以及
每次检测到的对象在所述第一对象的阈值距离内时增加所述分数。
5.根据权利要求3或4所述的系统,所述操作还包括:
确定所述分数大于或等于第一阈值;以及
至少部分地基于以下各项中的一项或多项来确定所述第一对象与所述第二对象相关联:(i)确定所述分数大于或等于所述第一阈值,(ii)面积交叉率,(iii)所述检测到的对象是否与所述第一对象重叠的指示,或(iv)所述检测到的对象是否被分类为与所述第一对象相同的类别的指示。
6.根据权利要求1至5中任一项所述的系统,所述操作还包括:
确定与所述第二对象相关联的至少一个位置,其中,所述至少一个位置包括:
所述第二对象的输出位置,其中,所述输出位置由被训练以检测至少所述第一对象和所述第二对象的模型输出;或者
所述第二对象的估计位置,其中,所述估计位置包括所述输出位置;以及
将所述至少一个位置与所述复合对象的指示相关联。
7.根据权利要求1至6中任一项所述的系统,其中,所述复合对象包括带有对象的行人,所述第一对象包括行人,并且所述第二对象包括行人对象,并且其中,所述行人对象包括婴儿车、手提箱、雨伞、大箱子、儿童、摩托车、手推车或轮椅。
8.根据权利要求1至7中任一项所述的系统,所述操作还包括:
将与所述第一对象相关联的第一边界区域和与所述第二对象相关联的第二边界区域相关联;以及
将所述第一边界区域和所述第二边界区域与第三边界区域相关联,其中,所述第三边界区域包围所述第一边界区域和所述第二边界区域;其中,将所述第一对象的指示或所述复合对象的指示提供给所述车辆的预测组件或规划组件中的至少一个包括将所述第一边界区域、所述第二边界区域和所述第三边界区域提供给所述车辆的预测组件或规划组件中的至少一个,以用于控制所述车辆。
9.一种方法,包括:
从与车辆相关联的一个或多个传感器接收数据;
确定与所述数据相关联的观测,其中,所述观测与第一对象相关联;
确定所述第一对象是否与第二对象相关联,其中,所述第一对象和所述第二对象包括复合对象;以及
将所述第一对象的指示或所述复合对象的指示提供给所述车辆的预测组件或规划组件中的至少一个,以用于控制所述车辆。
10.根据权利要求9所述的方法,还包括:
分析随时间的所述数据的一个或多个部分;
至少部分地基于所述分析来确定分数;
每次检测到的对象在所述第一对象的阈值距离内时增加分数,其中,所述分数指示所述第一对象与所述第二对象相关联的可能性;
确定所述分数大于或等于阈值;以及
确定所述第一对象与所述第二对象相关联。
11.根据权利要求9或10所述的方法,还包括:至少部分地基于以下各项中的一项或多项来确定所述第一对象是否与所述第二对象相关联:(i)面积交叉率,(ii)所述检测到的对象是否与所述第一对象重叠的指示,或(iii)所述检测到的对象是否被分类为与所述第一对象相同的类别的指示。
12.根据权利要求9至11中任一项所述的方法,还包括:至少部分地基于所述第一对象与所述第二对象的关联,将运动学模型与所述第二对象相关联,其中,在随时间接收的新传感器数据中将所述第一对象与所述第二对象相关联是至少部分地基于所述运动学模型的。
13.根据权利要求9至12中任一项所述的方法,还包括:
确定所述第二对象的输出位置或所述第二对象的估计位置中的至少一个,其中,所述估计位置是至少部分地基于所述输出位置和与所述第二对象相关联的一个或多个先前位置来确定的;以及
如果与被训练以检测至少所述第一对象和所述第二对象的模型相关联的噪声度量大于或等于阈值,则利用所述复合对象的指示将所述估计位置提供给所述预测组件或所述规划组件中的所述至少一个,
如果与所述模型相关联的所述噪声度量低于所述阈值,则利用所述复合对象的指示将所述输出位置提供给所述预测组件或所述规划组件中的所述至少一个。
14.根据权利要求9至13中任一项所述的方法,还包括:
将与所述第一对象相关联的第一边界区域和与所述第二对象相关联的第二边界区域相关联;以及
将所述第一边界区域和所述第二边界区域与第三边界区域相关联,其中,所述第三边界区域包围所述第一边界区域和所述第二边界区域;其中,将所述第一对象的指示或所述复合对象的指示提供给所述车辆的预测组件或规划组件中的至少一个包括将所述第一边界区域、所述第二边界区域和所述第三边界区域提供给所述车辆的预测组件或规划组件中的至少一个,以用于控制所述车辆。
15.一种或多种非暂时性计算机可读介质,其包括指令,所述指令当由一个或多个处理器执行时,使所述一个或多个处理器执行根据权利要求9-14中任一项所述的方法。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/726,097 | 2019-12-23 | ||
US16/726,097 US11789155B2 (en) | 2019-12-23 | 2019-12-23 | Pedestrian object detection training |
US16/726,042 US11462041B2 (en) | 2019-12-23 | 2019-12-23 | Pedestrians with objects |
US16/726,042 | 2019-12-23 | ||
PCT/US2020/064851 WO2021133582A1 (en) | 2019-12-23 | 2020-12-14 | Pedestrians with objects |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115843346A true CN115843346A (zh) | 2023-03-24 |
Family
ID=76576012
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202080089405.0A Pending CN115843346A (zh) | 2019-12-23 | 2020-12-14 | 带有对象的行人 |
Country Status (4)
Country | Link |
---|---|
EP (1) | EP4081875A4 (zh) |
JP (1) | JP2023508043A (zh) |
CN (1) | CN115843346A (zh) |
WO (1) | WO2021133582A1 (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US12091044B2 (en) * | 2021-12-21 | 2024-09-17 | Gm Cruise Holdings Llc | Hierarchical mode anchoring |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8731777B2 (en) * | 2009-08-18 | 2014-05-20 | Crown Equipment Corporation | Object tracking and steer maneuvers for materials handling vehicles |
WO2017079349A1 (en) * | 2015-11-04 | 2017-05-11 | Zoox, Inc. | System for implementing an active safety system in an autonomous vehicle |
US10163015B2 (en) * | 2016-11-16 | 2018-12-25 | Ford Global Technologies, Llc | Detecting foliage using range data |
US11157527B2 (en) * | 2018-02-20 | 2021-10-26 | Zoox, Inc. | Creating clean maps including semantic information |
-
2020
- 2020-12-14 WO PCT/US2020/064851 patent/WO2021133582A1/en unknown
- 2020-12-14 CN CN202080089405.0A patent/CN115843346A/zh active Pending
- 2020-12-14 JP JP2022538688A patent/JP2023508043A/ja active Pending
- 2020-12-14 EP EP20905627.4A patent/EP4081875A4/en active Pending
Also Published As
Publication number | Publication date |
---|---|
JP2023508043A (ja) | 2023-02-28 |
EP4081875A1 (en) | 2022-11-02 |
WO2021133582A1 (en) | 2021-07-01 |
EP4081875A4 (en) | 2024-01-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7350013B2 (ja) | マスクを使用したデータセグメンテーション | |
US11163990B2 (en) | Vehicle control system and method for pedestrian detection based on head detection in sensor data | |
US11450117B2 (en) | Hierarchical machine-learning network architecture | |
WO2020264010A1 (en) | Low variance region detection for improved detection | |
US11462041B2 (en) | Pedestrians with objects | |
US11789155B2 (en) | Pedestrian object detection training | |
US11610078B2 (en) | Low variance region detection for improved high variance region detection using machine learning | |
US10929711B1 (en) | Time of flight data segmentation | |
US20210269065A1 (en) | Perpendicular cut-in detection | |
CN114072841A (zh) | 根据图像使深度精准化 | |
US12055935B2 (en) | Perpendicular cut-in training | |
US11605236B2 (en) | Training a machine-learned model to detect low variance regions | |
US12080074B2 (en) | Center-based detection and tracking | |
CN115843346A (zh) | 带有对象的行人 | |
US20240253620A1 (en) | Image synthesis for discrete track prediction | |
JP2024538541A (ja) | 最適化に基づく計画システム | |
WO2021173395A1 (en) | Perpendicular cut-in training |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |