CN113196103A - 用于自主车辆的对象动作分类 - Google Patents
用于自主车辆的对象动作分类 Download PDFInfo
- Publication number
- CN113196103A CN113196103A CN201980084687.2A CN201980084687A CN113196103A CN 113196103 A CN113196103 A CN 113196103A CN 201980084687 A CN201980084687 A CN 201980084687A CN 113196103 A CN113196103 A CN 113196103A
- Authority
- CN
- China
- Prior art keywords
- lidar sensor
- model
- sensor data
- vehicle
- action
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000033001 locomotion Effects 0.000 title claims description 20
- 230000009471 action Effects 0.000 claims abstract description 95
- 230000004044 response Effects 0.000 claims abstract description 5
- 238000000034 method Methods 0.000 claims description 38
- 238000013528 artificial neural network Methods 0.000 claims description 7
- 230000000875 corresponding effect Effects 0.000 description 29
- 230000008447 perception Effects 0.000 description 20
- 230000015654 memory Effects 0.000 description 18
- 230000001133 acceleration Effects 0.000 description 12
- 230000006399 behavior Effects 0.000 description 8
- 230000001276 controlling effect Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 5
- 230000011664 signaling Effects 0.000 description 4
- 238000001514 detection method Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 239000000446 fuel Substances 0.000 description 2
- 238000013515 script Methods 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000001351 cycling effect Effects 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000002310 reflectometry Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S17/00—Systems using the reflection or reradiation of electromagnetic waves other than radio waves, e.g. lidar systems
- G01S17/88—Lidar systems specially adapted for specific applications
- G01S17/93—Lidar systems specially adapted for specific applications for anti-collision purposes
- G01S17/931—Lidar systems specially adapted for specific applications for anti-collision purposes of land vehicles
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W30/00—Purposes of road vehicle drive control systems not related to the control of a particular sub-unit, e.g. of systems using conjoint control of vehicle sub-units
- B60W30/08—Active safety systems predicting or avoiding probable or impending collision or attempting to minimise its consequences
- B60W30/095—Predicting travel path or likelihood of collision
- B60W30/0956—Predicting travel path or likelihood of collision the prediction being responsive to traffic or environmental parameters
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S17/00—Systems using the reflection or reradiation of electromagnetic waves other than radio waves, e.g. lidar systems
- G01S17/86—Combinations of lidar systems with systems other than lidar, radar or sonar, e.g. with direction finders
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S17/00—Systems using the reflection or reradiation of electromagnetic waves other than radio waves, e.g. lidar systems
- G01S17/88—Lidar systems specially adapted for specific applications
- G01S17/89—Lidar systems specially adapted for specific applications for mapping or imaging
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S7/00—Details of systems according to groups G01S13/00, G01S15/00, G01S17/00
- G01S7/48—Details of systems according to groups G01S13/00, G01S15/00, G01S17/00 of systems according to group G01S17/00
- G01S7/4802—Details of systems according to groups G01S13/00, G01S15/00, G01S17/00 of systems according to group G01S17/00 using analysis of echo signal for target characterisation; Target signature; Target cross-section
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/0088—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots characterized by the autonomous decision making process, e.g. artificial intelligence, predefined behaviours
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0231—Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means
- G05D1/0246—Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using a video camera in combination with image processing means
- G05D1/0248—Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using a video camera in combination with image processing means in combination with a laser
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/251—Fusion techniques of input or preprocessed data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/803—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of input or preprocessed data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
- G06V20/58—Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/64—Three-dimensional objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/23—Recognition of whole body movements, e.g. for sport training
- G06V40/25—Recognition of walking or running movements, e.g. gait recognition
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Electromagnetism (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computer Networks & Wireless Communication (AREA)
- Health & Medical Sciences (AREA)
- Automation & Control Theory (AREA)
- Data Mining & Analysis (AREA)
- Medical Informatics (AREA)
- Human Computer Interaction (AREA)
- General Health & Medical Sciences (AREA)
- Aviation & Aerospace Engineering (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Software Systems (AREA)
- Mechanical Engineering (AREA)
- Optics & Photonics (AREA)
- Transportation (AREA)
- Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Traffic Control Systems (AREA)
Abstract
本公开的方面涉及训练和使用模型270来识别对象的动作。例如,可以接收包括与对象对应的对象边界框以及该边界框的动作标签的LIDAR传感器数据帧250。每个传感器帧与时间戳相关联,并相对于其他传感器帧排序。可以基于与每个给定的传感器数据帧相关联的时间戳将该给定的传感器数据帧投影到对象的相机图像700中以便提供融合数据。可以使用融合数据来训练模型,使得模型配置为响应于接收到融合数据,模型输出融合数据的每个对象边界框的动作标签。该输出然后可以用于在自主驾驶模式下控制车辆100。
Description
相关申请的交叉引用
本申请要求享有2018年10月22日提交的第16/167,007号申请的权益,该申请的公开内容通过引用合并于此。
背景技术
自主车辆,诸如当以自主驾驶模式操作时不需要人类驾驶员的车辆,可以用于帮助将乘客或物品从一个位置运输到另一个位置。自主车辆的重要组成部分是感知系统,其允许车辆使用诸如相机、雷达、LIDAR传感器和其他类似设备的传感器感知和解释其周围环境。例如,感知系统和/或车辆的计算设备可以处理来自这些传感器的数据,以便识别对象及其特征,诸如位置、形状、大小、取向、航向、加速度或减速度、类型等。该信息对于允许车辆的计算系统为车辆做出适当的驾驶决策至关重要。
发明内容
本公开的方面提供了一种训练用于识别对象动作的模型的方法。该方法包括由一个或更多个服务器计算设备接收LIDAR传感器数据帧的集合,每个LIDAR传感器帧包括对应于对象的对象边界框和该对象边界框的动作标签。该组LIDAR传感器帧的每个LIDAR传感器帧与时间戳相关联,并相对于该组LIDAR传感器帧的其他LIDAR传感器帧排序。该方法还包括由所述一个或更多个服务器计算设备基于与该组LIDAR传感器帧的每个给定的LIDAR传感器数据帧相关联的时间戳将该给定的LIDAR传感器数据帧投影到与所述对象的相机图像对应的投影图像中,以便针对时间戳提供融合的相机和LIDAR传感器数据。该方法还包括由所述一个或更多个服务器计算设备使用融合的相机和LIDAR传感器数据来训练模型以便改善模型的精度。模型配置为响应于接收到附加的融合的相机和LIDAR数据而输出该附加的融合的相机和LIDAR数据的每个对象边界框的动作标签。
在一个示例中,该组LIDAR传感器数据帧的每个对象边界框对应于行人。在该示例中,该组LIDAR传感器数据帧的对象边界框的每个动作标签对应于行人的动作。在该示例中,动作标签包括标识行人正在行走的标签。此外或替代地,动作标签包括标识行人正在跑步的标签。此外或替代地,动作标签包括标识行人正在推物体的标签。此外或替代地,动作标签包括标识行人正骑在另一物体上的标签。此外或替代地,动作标签包括标识行人正在携带物体的标签。在另一示例中,投影图像是表示相机图像的图像平面的空白图像,投影包括将投影图像与相机图像连接以生成融合的相机和LIDAR数据。在另一示例中,模型被训练为使得该模型配置为对于附加的融合的相机图像和LIDAR传感器数据帧的给定对象边界框,使用该给定对象边界框的对象的由该模型确定的一个或更多个历史动作标签,以便输出该给定对象边界框的动作标签。在另一示例中,模型是深度神经网络。
本公开的另一方面提供了一种用于控制具有自主驾驶模式的车辆的方法。该方法包括:由车辆的一个或更多个计算设备接收包括与对象对应的对象边界框的LIDAR传感器数据帧;由所述一个或更多个计算设备基于与LIDAR传感器数据帧相关联的时间戳以及与相机图像相关联的时间戳将LIDAR传感器数据帧投影到与对象的相机图像对应的投影图像中,以便针对时间戳提供融合的相机和LIDAR传感器数据;由所述一个或更多个计算设备将融合的相机和LIDAR传感器数据输入到模型中,以便确定对象的动作标签;以及由所述一个或更多个计算设备基于动作标签在自主驾驶模式下控制车辆。
在一个示例中,对象是行人。在该示例中,对象的动作标签包括标识行人正在行走的标签。替代地,对象的动作标签包括标识行人正在跑步的标签。在另一示例中,将融合的相机和LIDAR传感器数据输入到模型中进一步提供由模型使用融合的相机和LIDAR传感器数据针对行人确定的一个或更多个历史动作标签,该融合的相机和LIDAR传感器数据来自LIDAR传感器数据帧和相机图像中的稍早时间捕获的传感器数据。在该示例中,所述一个或更多个历史动作标签也被输入到模型中以便确定对象的动作标签。在另一示例中,该方法还包括使用动作标签以便生成车辆的轨迹,其中,控制车辆进一步基于该轨迹。在另一示例中,该方法还包括将动作标签提供给行为模型以便预测对象的未来行为,其中,控制车辆进一步基于对象的所预测的未来行为。在另一示例中,模型是深度神经网络。
附图说明
图1是根据示例性实施例的示例车辆的功能图。
图2是根据本公开的方面的示例系统的直观图。
图3是根据本公开的方面的图2的系统的功能图。
图4是根据本公开的方面的车辆的示例外部视图。
图5是根据本公开的方面的LIDAR传感器帧的示例俯视图和对应部分。
图6是根据本公开的方面的LIDAR传感器帧的示例透视图。
图7是根据本公开的方面的示例相机图像。
图8A和图8B是根据本公开的方面的融合数据的示例。
图9是根据本公开的方面的示例流程图。
图10是根据本公开的方面的示例流程图。
具体实施方式
概述
该技术涉及对用于自主车辆的感知对象的动作进行分类。例如,车辆上的传感器可以检测车辆附近的行人。可以将与在不同时间点对行人的观察相对应的传感器数据输入到可对行人的动作(诸如行走、慢跑、携带杂货、滑滑板等)进行分类的机器学习模型中。就此而言,可以基于对行人先前动作的知识来对行人的动作进行分类。这些分类可以由车辆的各种系统使用以便确定如何控制车辆。
为了对感知对象的动作进行分类,必须训练前述模型。例如,可以使用由车辆的感知系统生成的标记传感器数据来训练深度神经网络。该传感器数据可以包括融合的相机图像和由车辆的感知系统捕获的LIDAR数据点。
此外,LIDAR数据点可以包括对象的边界框和相关联的动作标签。就此而言,融合数据还可以包括动作标签。例如,LIDAR数据点中的至少一些对象可以对应于对象。这些对象,或者更确切地说这些对象的数据点,可以由边界框界定。边界框可以定义对象的概括的尺寸和形状及其位置,并且还可以与标识对象的动作的信息相关联。边界框还可以与对象的其他特征(诸如位置、形状、尺寸、取向、航向、加速度或减速度、类型等)相关联。动作标签最初可以例如由人类操作者并且在一些情况下部分地由车辆的感知系统(诸如感知系统172)应用于边界框。对应于行人的对象的动作标签的示例可以包括例如人类看起来正在执行的动作的描述符。
如上所述,可以使用包括动作标签和边界框以及对象的任何关联信息的融合数据来训练模型。在一些情况下,可以只将对应于行人的边界框投影和/或输入到模型中,从而可以训练模型来识别行人的动作。此外,该训练数据可以按时间排序并用于确定模型的模型参数,该模型参数可以用于为对象提供动作。
示例系统
如图1所示,根据本公开的一个方面的车辆100包括各种组件。虽然本公开的某些方面对于特定类型的车辆特别有用,但是车辆可以是任何类型的车辆,包括但不限于汽车、卡车、摩托车、公共汽车、休闲车等。车辆可以具有一个或更多个计算设备,诸如包含一个或更多个处理器120、存储器130和通常存在于通用计算设备中的其他组件的计算设备110。
存储器130存储可由一个或更多个处理器120访问的信息,包括可由处理器120运行或以其他方式使用的指令134和数据132。存储器130可以是能够存储可由处理器访问的信息的任何类型,包括计算设备可读介质或存储可借助电子设备读取的数据的其他介质(诸如硬盘驱动器、存储器卡、ROM、RAM、DVD或其他光盘)以及其他可写只读存储器。系统和方法可以包括前述内容的不同组合,由此指令和数据的不同部分被存储在不同类型的介质上。
指令134可以是将由处理器直接运行的任何指令集(诸如机器代码)或将由处理器间接运行的任何指令集(诸如脚本)。例如,指令可以作为计算设备代码存储在计算设备可读介质上。就此而言,术语“指令”和“程序”在这里可以可互换地使用。指令可以以目标代码格式存储以供处理器直接处理,或以包括按需解释或预先编译的独立源代码模块的脚本或集合的任何其他计算设备语言存储。指令的功能、方法和例程在下面被更详细地解释。
数据132可以由处理器120根据指令134检索、存储或修改。例如,尽管要求保护的主题不受任何特定数据结构的限制,但是数据可以作为具有多个不同字段和记录的表、XML文档或平面文件存储在计算设备寄存器中、在关系数据库中。数据还可以被格式化为任何计算设备可读的格式。
一个或更多个处理器120可以是任何常规处理器,诸如市售的CPU或GPU。替代地,一个或更多个处理器可以是专用设备,诸如ASIC或其他基于硬件的处理器。尽管图1在功能上将计算设备110的处理器、存储器和其他元件示出为在同一个块内,但是本领域普通技术人员将理解,处理器、计算设备或存储器实际上可以包括可能或可能不存储在同一个物理壳体中的多个处理器、多个计算设备或多个存储器。例如,存储器可以是位于与计算设备110的壳体不同的壳体中的硬盘驱动器或其他存储介质。因此,对处理器或计算设备的引用将被理解为包括对可能或可能不并行操作的处理器或计算设备或存储器的集合的引用。
计算设备110可以通常与计算设备结合使用的所有组件,诸如上述处理器和存储器以及用户输入150(例如,鼠标、键盘、触摸屏和/或麦克风)和各种电子显示器(例如,具有屏幕的监视器或可操作以显示信息的任何其他电设备)。在该示例中,车辆包括内部电子显示器152以及一个或更多个扬声器154以提供信息或视听体验。就此而言,内部电子显示器152可以位于车辆100的舱室内,并且可以由计算设备110使用以向车辆100内的乘客提供信息。
计算设备110还可以包括一个或更多个无线网络连接156以促进与其他计算设备(诸如下面详细描述的客户端计算设备和服务器计算设备)的通信。无线网络连接可以包括短距离通信协议(诸如蓝牙、蓝牙低功耗(LE)、蜂窝连接)以及各种配置和协议,包括互联网、万维网、内联网、虚拟专用网、广域网、本地网、使用一家或更多家公司专有的通信协议的专用网、以太网、WiFi和HTTP以及前述各项的各种组合。
在一个示例中,计算设备110可以是并入车辆100中的自主驾驶计算系统。自主驾驶计算系统可以能够与车辆的各种组件通信以便在自主驾驶模式下控制车辆。例如,返回图1,计算设备110可以与车辆100的各种系统(诸如减速系统160、加速系统162、转向系统164、信号系统166、导航系统168、定位系统170和感知系统172)通信,以便在自主驾驶模式下根据存储器130的指令134来控制车辆100的移动、速度等。同样,尽管这些系统被示出为在计算设备110外部,但实际上,这些系统也可以并入计算设备110中,再次作为用于控制车辆100的自主驾驶计算系统。
作为示例,计算设备110可以与减速系统160和加速系统162交互以便控制车辆的速度。类似地,转向系统164可以由计算设备110使用以便控制车辆100的方向。例如,如果车辆100配置为在道路上使用,诸如汽车或卡车,则转向系统可以包括用于控制车轮的角度来使车辆转向的组件。信号系统166可以由计算设备110使用以便例如通过在需要时点亮转向灯或刹车灯来向其他驾驶员或车辆发出车辆意图的信号。
导航系统168可以由计算设备110使用以便确定并遵循到一位置的路线。就此而言,导航系统168和/或数据132可以存储详细的地图信息,例如标识道路、车道线、交叉路口、人行横道、速度限制、交通信号、建筑物、标志、实时交通信息、靠边停车点植被或其他此类对象和信息的高度详细的地图。如下面进一步讨论的,这些靠边停车点可以是“手动”选择或识别的区域(诸如路肩区域、停车点、停车场、紧急靠边停车点等),在这些区域中车辆能够合法地在一段时间内停下和停放。
定位系统170可以由计算设备110使用以便确定车辆在地图上或在地球上的相对或绝对位置。例如,定位系统170可以包括GPS接收器以确定设备的纬度、经度和/或海拔位置。其他定位系统,诸如基于激光的定位系统、惯性辅助的GPS或基于相机的定位,也可以用于识别车辆的位置。车辆的位置可以包括绝对地理位置(诸如纬度、经度和海拔高度)以及常可用比绝对地理位置更少的噪声来确定的相对位置信息(诸如相对于紧邻其的其他汽车的位置)。
定位系统170还可以包括与计算设备110通信的其他设备,诸如加速度计、陀螺仪或别的方向/速度检测设备,以确定车辆的方向和速度或其变化。仅作为示例,加速设备可以确定其相对于重力方向或与其垂直的平面的俯仰、偏航或滚转(或其变化)。该设备还可以跟踪速度的增加或减少以及这种变化的方向。可以自动地向计算设备110、其他计算设备和前述设备的组合提供设备对如这里阐述的位置和取向数据的规定。
感知系统172也包括一个或更多个组件,用于检测车辆外部的对象,诸如其他车辆、道路中的障碍物、交通信号、标志、树木等。例如,感知系统172可以包括激光器、声纳、雷达、相机和/或记录可由计算设备110处理的数据的任何其他检测设备。车辆可以包括安装在车顶或其他便利位置上的激光或其他传感器。
为了在自主驾驶模式下操作,计算设备110可以生成轨迹并使车辆遵循该轨迹,该轨迹限定车辆在未来时间应处于的位置。可以周期性地(诸如每0.1秒或更长或更短)生成这些轨迹作为“期望路径”,以便避开障碍物、遵守法律并总体上安全有效地控制车辆。每个轨迹可以限定对车辆在沿着轨迹的不同时间的加速度、速度和位置的各种要求。就此而言,轨迹可以包括几何和速度/加速度分量两者。作为示例,计算设备110可以操作以管理转向、动力系和制动以便使车辆遵循当前的(或最后生成的)轨迹。为了这样做,计算设备110可以从车辆传感器(包括感知系统172和定位系统170的和/或传感器)接收反馈。该反馈可以包括诸如车辆的当前加速度、速度和位置的信息。
计算设备110可以通过控制各种组件来控制车辆。例如,作为示例,计算设备110可以使用来自详细地图信息和导航系统168的数据完全自主地将车辆导航到目的地位置。计算设备110可以使用定位系统170以确定车辆的位置,并使用感知系统172以在需要安全到达位置时检测并响应对象。同样,为了这样做,计算设备110可以生成轨迹,并例如通过使车辆加速(例如,通过由加速系统162向发动机供应燃料或其他能量)、减速(例如,通过减少供应给发动机的燃料、换档和/或通过由减速系统160施加制动)、改变方向(例如,通过由转向系统164使车辆100的前轮或后轮转向)以及发出此类变化的信号(例如,通过点亮信号系统166的转向灯)来使车辆遵循这些轨迹。因此,加速系统162和减速系统160可以是包括车辆发动机和车辆的车轮之间的各种组件的传动系的一部分。同样,通过控制这些系统,计算设备110还可以控制车辆的传动系以便自主地操纵车辆。
车辆100的计算设备110还可以从其他计算设备接收信息或向其他计算设备传送信息。图2和图3分别是示例系统200的直观图和功能图,该示例系统200包括经由网络260连接的多个计算设备210、220、230、240和存储系统250。系统200还包括车辆100以及可与车辆100类似地配置的车辆100A。尽管为了简单起见仅描绘了一些车辆和计算设备,但是典型的系统可以包括明显更多的车辆和计算设备。
如图3所示,计算设备210、220、230、240中的每个可以包括一个或更多个处理器、存储器、数据和指令。这样的处理器、存储器、数据和指令可以与计算设备110的一个或更多个处理器120、存储器130、数据132和指令134类似地配置。
网络260和介于中间的节点可以包括各种配置和协议,包括短距离通信协议,诸如蓝牙、蓝牙LE、互联网、万维网、内联网、虚拟专用网、广域网、本地网、使用一家或更多家公司专有的通信协议的专用网、以太网、WiFi和HTTP以及前述各项的各种组合。这样的通信可以由能够向其他计算设备(诸如调制解调器和无线接口)以及从所述其他计算设备传输数据的任何设备促进。
在一个示例中,一个或更多个计算设备110可以包括具有多个计算设备(例如,负载平衡服务器群)的服务器,所述多个计算设备出于接收、处理和发送给其他计算设备以及来自其他计算设备的数据的目的而与网络的不同节点交换信息。例如,一个或更多个计算设备210可以包括一个或更多个服务器计算设备,所述一个或更多个服务器计算设备能够经由网络260与车辆100的计算设备110或车辆100A的类似计算设备以及计算设备220、230、240通信。例如,车辆100和100A可以是可由服务器计算设备分派到各个位置的一队车辆的一部分。就此而言,该队的车辆可以周期性地发送由车辆的相应定位系统提供的服务器计算设备位置信息,并且所述一个或更多个服务器计算设备可以跟踪车辆的位置。
此外,服务器计算设备210可以使用网络260以将信息发送给用户(诸如用户222、232、242)并在显示器(诸如计算设备220、230、240的显示器224、234、244)上向用户呈现该信息。就此而言,计算设备220、230、240可以被认为是客户端计算设备。
如图3所示,每个客户端计算设备220、230、240可以是旨在供用户222、232、242使用的个人计算设备,并具有通常结合个人计算设备使用的所有组件,包括一个或更多个处理器(例如,中央处理单元(CPU)),存储数据和指令的存储器(例如,RAM和内部硬盘驱动器),诸如显示器224、234、244的显示器(例如,具有屏幕的监视器、触摸屏、投影仪、电视或可操作以显示信息的其他设备),以及用户输入设备226、236、246(例如,鼠标、键盘、触摸屏或麦克风)。客户端计算设备还可以包括用于记录视频流的相机、扬声器、网络接口设备以及用于将这些元件彼此连接的所有组件。
此外,客户端计算设备220和230还可以包括用于确定客户端计算设备的位置和取向的组件228和238。例如,这些组件可以包括用于确定设备的纬度、经度和/或海拔的GPS接收器以及加速度计、陀螺仪或如以上关于车辆100的定位系统170描述的另一方向/速度检测设备。
尽管客户端计算设备220、230和240可以每个都包括全尺寸的个人计算设备,但是它们可以替代地包括能够通过诸如互联网的网络与服务器无线交换数据的移动计算设备。仅作为示例,客户端计算设备220可以是移动电话或诸如支持无线的PDA、平板PC、可穿戴计算设备或系统、或者能够经由互联网或其他网络获得信息的网络本的设备。在另一示例中,客户端计算设备230可以是在图2中示出为腕表的可穿戴计算系统。作为示例,用户可以使用小键盘、键板、麦克风、使用视觉信号用相机或触摸屏来输入信息。
在一些示例中,客户端计算设备240可以是礼宾工作站,其由管理员使用以根据需要向用户(诸如用户222和232)提供礼宾服务以及对来自车辆100和100A的援助请求的响应。例如,礼宾员242可以使用礼宾工作站240以通过其各自的客户端计算设备或车辆100或100A经由电话呼叫或音频连接与用户通信,以便促进如下面更详细描述的车辆100和100A的安全操作和用户的安全。尽管在图2和图3中仅示出了单个礼宾工作站240,但是在典型的系统中可以包括任何数量的此类工作站。
存储系统250可以存储如下面更详细描述的各种类型的信息。该信息可以由服务器计算设备(诸如一个或更多个服务器计算设备210)检索或以其他方式访问,以便执行这里描述的一些或所有特征。例如,存储系统可以存储多个图像254。该多个图像可以包括由自主车辆的感知系统捕获的图像,以便提供可能出现在那些图像中的标志的最相关的情境和取向。例如,所述多个图像可以是由安装在一个或更多个车辆(诸如车辆100或100A)上的静物和/或视频相机捕获并经由网络260上传或以其他方式发送到存储系统250以供存储的图像或帧。因此,图像可以从车辆的相机或感知系统的角度准确地反映对道路和各种对象的感知。如下面进一步讨论的,这些图像中的至少一些可以与OCR数据以及标签相关联。
存储系统250还可以存储由车辆的感知系统(例如车辆100的感知系统172)捕获的LIDAR传感器数据252。例如,LIDAR传感器数据可以包括与表面的位置和强度(或反射率)对应的数据点,由LIDAR传感器产生的光从所述表面被反射回LIDAR传感器。LIDAR传感器帧可以对应于从LIDAR传感器的1度或更多的360度扫描或旋转生成的数据。
在一些情况下,LIDAR传感器数据252中的至少一些可以与多个图像254中的一个或更多个相机图像融合。例如,由车辆(诸如车辆100)的感知系统以给定时间戳捕获的针对整个帧或场景(而不是单个对象)的LIDAR数据点可以被投影到由车辆的感知系统捕获的相机图像中,该相机图像具有与LIDAR数据点的给定时间戳对应的时间戳。结果可以是融合的相机和LIDAR数据,包括RGB颜色通道数据以及强度、高程(elevation)和深度信息。因为相机图像和LIDAR数据点是接近或同时捕获的,所以相机图像和LIDAR数据有可能在同一位置在同一时间或非常接近同一时间捕获了对象。
此外,LIDAR传感器数据252中的至少一些可以包括对象的动作标签。就此而言,融合数据还可以包括动作标签。每个动作标签可以包括包围或包含被识别为属于对象的LIDAR传感器数据的数据点的边界框、以及针对LIDAR传感器帧识别对象的动作的动作标签。当然,出现在不同LIDAR传感器帧中的同一物体的动作标签可以随着对象动作改变而改变。例如,对象的边界框可以针对一个LIDAR传感器帧具有标签“行走”,在几秒钟后捕获的另一个LIDAR传感器帧中,同一对象的边界框可以具有标签“进入车辆”。在一些情况下,动作标签还可以包括附加信息,诸如航向、速度、加速度或减速度、取向等。替代地,可以从LIDAR数据点随时间推移从动作标签本身估计或导出该信息。
动作标签最初可以例如由人类操作者(在一些情况下,部分地由车辆的感知系统)应用于LIDAR数据点。例如,车辆的感知系统可以生成界定与对象对应的LIDAR数据点的三维(3D)边界框。此后,人类操作者可以调节边界框,使其变大或变小和/或根据需要移动边界框的位置,并添加动作标签。此外或替代地,可以由人类操作者创建边界框并将其应用于LIDAR数据。
例如,可以向人类操作者展示一系列带时间戳的帧,例如3个或更多或更少,并且可以将前述动作标签应用于那些帧中的对象,诸如行人。每个帧可以按时间顺序排列,使得这些帧随时间推移。就此而言,第一帧可以对应于紧接在第二帧之前的时间,第二帧可以对应于紧接在第三帧之前的时间。此外或替代地,标签可以由人类操作者从LIDAR和相机图像的组合生成,其中,人类操作者需要确保边界框在LIDAR数据以及在相机图像或图像中是正确的。此外或替代地,边界框可以由人类操作者应用于相机图像,然后投影到LIDAR数据点的空间中。
作为示例,对应于行人的对象的动作标签可以包括例如针对人类看上去正在采取的动作的描述符。动作标签的示例列表可以包括跑步、推婴儿车、推大物体、拿着物体、进入车辆、离开车辆、骑踏板车、滑滑板、行走、骑自行车等。
存储系统250以及车辆100的数据132可以存储一个或更多个模型270以及每个此类模型的模型参数值272。例如,存储系统可以存储用于识别诸如行人的对象的动作标签的一个或更多个模型。例如,模型270之一可以包括分类器,诸如神经网络、深度神经网络、决策树、提升树等。此外,存储系统250可以包括训练子系统274,其可用于训练短语识别模型,如下面进一步讨论的。
与存储器130一样,存储系统250可以是能够存储可由服务器计算设备210访问的信息的任何类型的计算机存储,诸如硬盘驱动器、存储器卡、ROM、RAM、DVD、CD-ROM、可写只读存储器。此外,存储系统250可以包括分布式存储系统,其中,数据存储在多个不同的存储设备上,所述多个不同的存储设备可以物理地位于相同或不同的地理位置。存储系统250可以经由如图2所示的网络260连接到计算设备和/或可以直接连接到或并入计算设备110、210、220、230、240等中的任何一个。
车辆100还包括感知系统172的传感器。图4是车辆100的示例配置。在该示例中,车顶壳体420和圆顶壳体422可以包括LIDAR传感器以及各种相机和雷达单元。此外,位于车辆100前端的壳体430以及在车辆的驾驶员侧和乘客侧的壳体440、442可以每个都存放LIDAR传感器。例如,壳体440位于驾驶员车门460前方。车辆100还包括用于也位于车辆100顶部的雷达单元和/或相机的壳体450、452。附加的雷达单元和相机(未示出)可以位于在车辆100的前端和后端和/或在沿着车顶或车顶壳体420的其他位置。这些雷达、相机和激光传感器或设备中的每个都可以与处理组件相关联,所述处理组件处理来自作为感知系统172的部分的这些设备的数据,并向计算设备110提供传感器数据。此外,这些传感器(诸如LIDAR传感器和相机)中的至少一些可以具有重叠的视野以促进这里进一步讨论的特征。
示例方法
除了以上描述和在图中示出的操作之外,现在将描述各种操作。应理解,以下操作不必按下面描述的精确顺序执行。而是,可以按不同的顺序或同时处理各个步骤,并且还可以添加或省略步骤。
为了能够使用一个或更多个模型270中的模型来识别对象的动作标签,该模型可以首先被“离线”(即提前和/或在远程计算设备上)训练,并且此后经由网络260和无线网络连接156发送给车辆100。例如,一个或更多个服务器计算设备210可以通过首先从存储系统250检索训练数据来生成模型参数值274。
例如,一个或更多个服务器计算设备210可以检索LIDAR传感器数据帧的集合。如上所述,这些LIDAR传感器帧可以与对应于对象的对象边界框以及一个或更多个边界框的动作标签相关联。每个LIDAR传感器数据帧也可以基于时间戳相对于LIDAR传感器帧中的其他LIDAR传感器帧按时间排序。
图5是车辆100和车辆100周围区域的俯视图510以及由感知系统172的LIDAR传感器生成的与俯视图510对应的LIDAR传感器帧520的一部分的示例500。在该示例中,LIDAR传感器帧520的点代表由LIDAR传感器生成的LIDAR返回,其指示在车辆100的环境中的对象的表面。为了易于理解,车辆100用传感器数据520表示,但实际上可以不是传感器数据520的部分。此外,俯视图510提供了特征的情境,包括交通灯530、车辆540、行人550和560、人行横道570,这些情境由LIDAR传感器帧520的LIDAR数据点表示,这些LIDAR数据点分别指示对应的检测对象532、542、552、562和572的表面。
在图5的示例500中,与行人550和560的表面对应的对象552和562的点组分别拟合到边界框554和564中。尽管由于传感器数据520的视角而被描绘为2D,但是边界框554、564实际上是3D体积。就此而言,图6提供了包括边界框554、564的LIDAR传感器帧520的示例600侧透视图。此外,感知系统172可以使用边界框内的点组以及那些点和/或边界框随着时间推移的变化,以便确定对象的各种特征,诸如位置、形状、尺寸、取向、航向、加速度或减速度、类型等。
如上所述,这些边界框可以由人类操作者审查,当审查一系列按时间排序的LIDAR传感器帧时,人类操作者向边界框提供动作标签。就此而言,边界框554和564中的每个分别包括相关联的动作标签650和660。在该示例中,人类操作者可以已经将对应于行人550的边界框554标记为“跑步”并且将对应于行人560的边界框564标记为“行走”。
此外,一个或更多个服务器计算设备210可以检索一个或更多个相机图像。可以基于与相机图像和LIDAR传感器数据帧相关联的时间戳以及关于捕获图像的感知系统的其他信息来确定检索哪些相机图像。例如,时间戳应在时间上尽可能接近并且由感知系统172的具有重叠视野的传感器捕获的LIDAR传感器数据和相机图像。就此而言,应在LIDAR传感器数据帧和相机图像两者中捕获相同的对象。
图7是由车辆100的感知系统172的相机捕获的示例相机图像700。在该示例中,相机图像的时间戳可以与LIDAR传感器数据520的时间戳相同或非常接近,例如,在十分之一秒内或者甚至在几毫秒内。在该示例中,交通灯530、行人550和560以及人行横道570全被捕获在相机图像700中,因为相机图像700的时间戳可以与LIDAR传感器帧520的时间戳相同或非常接近。车辆540未被示出,因为它在相机图像700的视野之外。
一个或更多个服务器计算设备210还可以生成融合数据。例如,一个或更多个计算设备210可以将LIDAR传感器帧的集合中的每个给定的LIDAR传感器数据帧投影到与对象的相机图像对应的图像(在下文中称为投影图像)中。就此而言,投影图像最初(或更确切地,在投影之前)可以是空白图像,例如黑色或白色图像,代表相机图像的图像平面。例如,一个或更多个计算设备210可以将LIDAR传感器帧的集合投影到与对象的相机图像具有相同坐标的投影图像中。然后可以将投影图像与相机图像在其RGB通道的维度上连接。例如,如果相机图像的大小为H×W×3,投影图像将为H×W×C,则最终图像将为H×W×(C+3)。这样,可以基于相机图像的位置和取向以及LIDAR传感器帧的数据点的位置来进行投影,从而可以将LIDAR传感器帧的数据点中的至少一些投影到投影图像中的与相机图像中的特征的表面对应的位置上。结果可以是融合的相机和LIDAR数据,包括RGB颜色通道数据以及强度、高程和深度信息。在一些情况下,也可以将地图信息(例如,高清地图)投影到图像平面中,以为融合的相机和LIDAR数据提供附加的情境。
此外,因为LIDAR传感器数据可以包括动作标签,所以投影还将动作标签(包括边界框)投影到投影图像中。因此,融合数据还包括动作标签。图8A和图8B展示了融合数据800。转向图8A的示例,LIDAR传感器帧520以及代表对应于行人的对象的边界框554和556被示出为投影到相机图像600中。可以看到,边界框554和556以及对应的动作标签650、660已经被投影到相机图像600的对应于行人550和560的部分上。图8B是融合数据800的另一种表示,其展示了并入其中的数据,包括相机图像700的RGB通道数据810以及LIDAR传感器帧520的强度820、高程830和深度信息840。此外,图8B包括边界框和动作标签850,它们代表前述边界框554和556以及对应的动作标签650、660。
然后,一个或更多个服务器计算设备210可以使用融合数据来训练模型。例如,可以使用包括融合数据的帧内的任何行人的动作标签650和660的融合数据800来训练模型。用于训练模型的融合的相机和LIDAR数据越多,模型在预测对象的标签方面就越好。就此而言,训练可以提高或改善模型的输出预测或标签的精度和准确度。
该训练数据可以基于LIDAR传感器数据帧(和/或相机图像)的时间戳按时间排序并用于确定模型的模型参数,该模型参数可以用于为对象提供动作。因为模型是使用整个帧而不仅仅是动作标签和捕获在边界框内的数据训练的,所以模型能够使用对象周围更大的情境(例如,其他对象的相对位置和其他特征),以更好地建立模型的参数。此外,因为输入帧是按时间排序的,所以模型能够输出动作标签以及每个标记对象的历史信息,或者更确切地,该行人应用了哪些先前或历史动作标签。
因为没有向模型提供链接融合数据的不同帧中的相同对象的信息,但是融合数据的帧是按时间排序的,所以可以训练模型自身来识别这些关系。就此而言,模型可以联合地提供对象动作的标记以及对那些对象随时间的跟踪两者。例如,这可以基于融合数据的先前帧中的对象的先前或历史动作标签以及该对象的特征(诸如位置、速度、航向等)在一个或更多个先前帧中与在当前帧中的比较。结果可以是这样的模型,其能够使用先前的动作标签和边界框、以及对象的可从融合数据中识别的其他特征,以便确定稍后时间的包括边界框和针对该对象的新动作标签。
图9是根据本公开的方面的示例流程图900,其可以由一个或更多个计算设备的一个或更多个处理器(诸如服务器计算设备210的处理器)执行,以便训练模型用于识别对象的动作。例如,在块910处,接收LIDAR传感器数据帧的集合。每个LIDAR传感器帧包括与对象对应的对象边界框以及边界框的动作标签。该组LIDAR传感器帧的每个LIDAR传感器帧与时间戳相关联,并相对于该组LIDAR传感器帧的其他LIDAR传感器帧排序。在块920处,基于与该组LIDAR传感器帧中的每个给定的LIDAR传感器数据帧相关联的时间戳将该给定的LIDAR传感器数据帧投影到与对象的相机图像对应的投影图像中,以便针对时间戳的时间提供融合的相机和LIDAR传感器数据。在块930处,使用融合的相机和LIDAR传感器数据来训练模型以便改善模型的精度,其中,模型配置为响应于接收到附加的融合的相机和LIDAR数据而输出附加的融合的相机和LIDAR数据的每个对象边界框的动作标签。
然后可以将模型提供给一个或更多个车辆,以便允许那些车辆的计算设备做出基于更多信息的驾驶决策。例如,模型270和模型参数值274可以例如经由网络260或者通过以其他方式将该信息加载到计算设备110中而被发送给车辆100的计算设备110。然后可以将该信息存储在计算设备110的存储器130中,以便允许计算设备使用短语识别模型来为车辆100做出驾驶决策。
在操作期间,对于由车辆的感知系统172捕获的每个LIDAR传感器帧,感知系统172和/或计算设备可以生成识别对象及其特征(诸如对象类型)的多个边界框。出于演示的目的,LIDAR传感器帧520、相机图像600和融合数据800将被引用为好像这些信息没有用于训练模型270。例如,此时感知系统172可以捕获LIDAR传感器帧和相机图像,诸如LIDAR传感器帧520和相机图像600。
如展示了LIDAR传感器帧和投影到相机图像600中的边界框554和564(尽管没有动作标签650和660)的图8的融合数据800的示例所示,每个LIDAR传感器帧和对象的任何相关联的边界框可以投影到表示对应相机图像的图像空间的对应投影图像中,以便生成融合的相机和LIDAR数据。同样,该投影可以基于相机图像的位置和取向以及LIDAR传感器帧的数据点的位置来完成,使得LIDAR传感器帧的数据点中的至少一些可以投影到投影图像的表示相机图像中的特征的表面的位置上。然后可以如上所述将投影图像与相机图像在其RGB通道的维度上连接,以便提供融合的相机和LIDAR数据。
当然,可以基于与相机图像和LIDAR传感器数据帧相关联的时间戳以及关于捕获图像的感知系统的其他信息来确定哪个LIDAR传感器数据帧与哪个相机图像融合。例如,时间戳应在时间上尽可能接近并且由感知系统172的具有重叠视野的传感器捕获的LIDAR传感器数据和相机图像。在一些情况下,只有特定类型的对象(诸如仅行人)的边界框可以被投影到相机图像中。
计算设备110然后可以使用模型270来处理该信息并输出每个对象的动作标签。例如,可以将融合数据800(同样没有动作标签650、660)的融合的相机和LIDAR传感器数据输入到模型270中。模型270可以输出帧中的被识别为行人的每个边界框的动作标签。就此而言,模型可以输出动作标签,诸如动作标签650和660。此外,如果在先前的传感器数据帧中观察到那些行人中的任何一个,则还将输出该历史信息(例如,每个行人的历史动作标签)。此后,输出的动作标签和历史动作标签将用作模型的输入,以便标记输入到模型中的下一帧中的对象(或者更确切地,下一帧的融合的相机和LIDAR传感器数据)。
然后,模型270的输出可以由计算设备110使用以为车辆100做出驾驶决策。例如,行人的动作标签可以由计算设备110使用以确定如何在自主驾驶模式下操纵车辆100。换言之,计算设备110可以使用动作标签来为不同类型的行人动作生成轨迹。例如,车辆可能需要对正在行走的行人与正在跑步或使用踏板车的行人做出不同的响应。此外或替代地,行人的动作标签可以被馈送到行人行为模型中,以便预测行人的未来行为、路径和/或轨迹。该信息进而又可以由车辆的计算设备使用以生成轨迹,以便对上述行人做出响应。
图10是根据本公开的方面的示例流程图1000,其可以由一个或更多个计算设备的一个或更多个处理器(诸如计算设备110的处理器120)执行,以便在自主驾驶模式下控制车辆(诸如车辆100),在块1010处,接收包括与对象对应的对象边界框的LIDAR传感器数据帧。在块1020处,基于与LIDAR传感器数据帧相关联的时间戳以及与相机图像相关联的时间戳将LIDAR传感器数据帧投影到与对象的相机图像对应的投影图像中,以便针对给定的时间段提供融合的相机和LIDAR传感器数据。在块1030处,将融合的相机和LIDAR传感器数据输入到模型中以便确定对象的动作标签。在块1040处,然后基于动作标签在自主驾驶模式下控制车辆。
虽然这里描述的特征涉及使用融合的LIDAR传感器数据帧和相机图像,但是替代地,相同的过程可以仅使用LIDAR传感器数据帧或仅使用相机图像而发生。此外或替代地,可以训练模型来处理其中对象出现在一个中而不出现在另一个中的LIDAR传感器数据或相机图像。
因此,这里描述的特征可以允许车辆的计算设备通过尝试识别行人的当前动作来更好地响应行人。此外,如上所述,模型可以提供预测对象的动作和随时间跟踪对象两者。这进而又可以用于改善车辆的各种下游系统(诸如前述行为模型)的有用性,前述行为模型预测行人的未来行为、路径和/或轨迹以及用于基于所预测的未来行为、路径和/或轨迹来生成轨迹。
除非另有说明,否则前述替代示例不是相互排斥的,而是可以以各种组合实施以实现独特的优势。由于可以在不脱离由权利要求限定的主题的情况下利用以上讨论的特征的这些和其他变化和组合,因此实施例的前述描述应被当作说明而不是对权利要求限定的主题的限制。此外,这里描述的实施例的提供以及措辞为“诸如”、“包括”等的短语不应被解释为将权利要求的主题限制于特定实施例;而是,这些示例仅旨在说明许多可能的实施例之一。此外,不同附图中的相同附图标记可以标识相同或相似的元件。
Claims (20)
1.一种训练用于识别对象动作的模型的方法,该方法包括:
由一个或更多个服务器计算设备接收LIDAR传感器数据帧的集合,每个LIDAR传感器帧包括对应于对象的对象边界框和用于对象边界框的动作标签,其中,所述LIDAR传感器帧的集合的每个LIDAR传感器帧与时间戳相关联并相对于所述LIDAR传感器帧的集合的其他LIDAR传感器帧排序;
由所述一个或更多个服务器计算设备基于与所述LIDAR传感器帧的集合的每个给定的LIDAR传感器数据帧相关联的时间戳将该给定的LIDAR传感器数据帧投影到与所述对象的相机图像对应的投影图像中,以便针对所述时间戳提供融合的相机和LIDAR传感器数据;以及
由所述一个或更多个服务器计算设备使用融合的相机和LIDAR传感器数据来训练模型以便改善模型的精度,其中,模型配置为响应于接收到附加的融合的相机和LIDAR数据而输出该附加的融合的相机和LIDAR数据的每个对象边界框的动作标签。
2.根据权利要求1所述的方法,其中,所述LIDAR传感器数据帧的集合的每个对象边界框对应于行人。
3.根据权利要求2所述的方法,其中,所述LIDAR传感器数据帧的集合的对象边界框的每个动作标签对应于行人的动作。
4.根据权利要求3所述的方法,其中,动作标签包括识别行人正在行走的标签。
5.根据权利要求3所述的方法,其中,动作标签包括识别行人正在跑步的标签。
6.根据权利要求3所述的方法,其中,动作标签包括识别行人正在推物体的标签。
7.根据权利要求3所述的方法,其中,动作标签包括识别行人正骑在另一物体上的标签。
8.根据权利要求3所述的方法,其中,动作标签包括识别行人正在携带物体的标签。
9.根据权利要求1所述的方法,其中,投影图像是表示相机图像的图像平面的空白图像,以及其中,投影包括将投影图像与相机图像连接以便生成融合的相机和LIDAR数据。
10.根据权利要求1所述的方法,其中,模型被训练为使得该模型配置为对于附加的融合的相机图像和LIDAR传感器数据帧的给定对象边界框,使用该给定对象边界框的对象的由该模型确定的一个或更多个历史动作标签,以便输出用于该给定对象边界框的动作标签。
11.根据权利要求1所述的方法,其中,模型是深度神经网络。
12.一种用于控制具有自主驾驶模式的车辆的方法,该方法包括:
由车辆的一个或更多个计算设备接收包括与对象对应的对象边界框的LIDAR传感器数据帧;
由所述一个或更多个计算设备基于与LIDAR传感器数据帧相关联的时间戳以及与相机图像相关联的时间戳将LIDAR传感器数据帧投影到与所述对象的相机图像对应的投影图像中,以便针对所述时间戳提供融合的相机和LIDAR传感器数据;
由所述一个或更多个计算设备将融合的相机和LIDAR传感器数据输入到模型中,以便确定所述对象的动作标签;以及
由所述一个或更多个计算设备基于动作标签在自主驾驶模式下控制车辆。
13.根据权利要求12所述的方法,其中,所述对象是行人。
14.根据权利要求13所述的方法,其中,所述对象的动作标签包括识别行人正在行走的标签。
15.根据权利要求13所述的系统方法,其中,所述对象的动作标签包括识别行人正在跑步的标签。
16.根据权利要求12所述的方法,其中,将融合的相机和LIDAR传感器数据输入到模型中进一步提供由模型使用融合的相机和LIDAR传感器数据针对行人确定的一个或更多个历史动作标签,该融合的相机和LIDAR传感器数据来自LIDAR传感器数据帧和相机图像中的稍早时间捕获的传感器数据。
17.根据权利要求16所述的方法,其中,所述一个或更多个历史动作标签也被输入到模型中以便确定所述对象的动作标签。
18.根据权利要求12所述的系统,还包括使用动作标签以便生成车辆的轨迹,其中,控制车辆进一步基于该轨迹。
19.根据权利要求12所述的方法,还包括将动作标签提供给行为模型以便预测所述对象的未来行为,其中,控制车辆进一步基于所述对象的所预测的未来行为。
20.根据权利要求12所述的方法,其中,模型是深度神经网络。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/167,007 | 2018-10-22 | ||
US16/167,007 US11061406B2 (en) | 2018-10-22 | 2018-10-22 | Object action classification for autonomous vehicles |
PCT/US2019/056522 WO2020086358A1 (en) | 2018-10-22 | 2019-10-16 | Object action classification for autonomous vehicles |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113196103A true CN113196103A (zh) | 2021-07-30 |
Family
ID=70280577
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201980084687.2A Pending CN113196103A (zh) | 2018-10-22 | 2019-10-16 | 用于自主车辆的对象动作分类 |
Country Status (4)
Country | Link |
---|---|
US (2) | US11061406B2 (zh) |
EP (1) | EP3853634A4 (zh) |
CN (1) | CN113196103A (zh) |
WO (1) | WO2020086358A1 (zh) |
Families Citing this family (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3283843B1 (en) | 2015-04-01 | 2024-01-10 | Vayavision Sensing Ltd. | Generating 3-dimensional maps of a scene using passive and active measurements |
US10909390B2 (en) * | 2018-10-25 | 2021-02-02 | GM Global Technology Operations LLC | Fixed-point quantization in neural networks for vehicle perception systems |
US10977501B2 (en) * | 2018-12-21 | 2021-04-13 | Waymo Llc | Object classification using extra-regional context |
US11393097B2 (en) * | 2019-01-08 | 2022-07-19 | Qualcomm Incorporated | Using light detection and ranging (LIDAR) to train camera and imaging radar deep learning networks |
US11308335B2 (en) * | 2019-05-17 | 2022-04-19 | Zeroeyes, Inc. | Intelligent video surveillance system and method |
EP3798911A1 (en) * | 2019-09-24 | 2021-03-31 | Robert Bosch GmbH | Method and system to classify sensor data with improved training robustness |
US11354913B1 (en) * | 2019-11-27 | 2022-06-07 | Woven Planet North America, Inc. | Systems and methods for improving vehicle predictions using point representations of scene |
US11121145B1 (en) * | 2020-03-03 | 2021-09-14 | Micron Technology, Inc. | Memory arrays comprising strings of memory cells and methods used in forming a memory array comprising strings of memory cells |
US20210286924A1 (en) * | 2020-03-11 | 2021-09-16 | Aurora Innovation, Inc. | Generating autonomous vehicle simulation data from logged data |
US11623585B2 (en) | 2020-04-30 | 2023-04-11 | Zoox, Inc. | Sensor pod coverage and placement on vehicle |
EP4143064A4 (en) * | 2020-04-30 | 2024-05-15 | Zoox, Inc. | SENSOR POD ARRANGEMENT |
US11760313B2 (en) | 2020-04-30 | 2023-09-19 | Zoox, Inc. | Sensor pod cleaning system |
US11305724B2 (en) | 2020-04-30 | 2022-04-19 | Zoox, Inc. | Pedestrian protection system for sensor pods |
US11953623B2 (en) | 2020-04-30 | 2024-04-09 | Zoox, Inc. | Sensor pod assembly |
US11353590B2 (en) | 2020-04-30 | 2022-06-07 | Zoox, Inc. | Sensor pod calibration |
WO2021261680A1 (ko) * | 2020-06-26 | 2021-12-30 | 주식회사 에스오에스랩 | 센서 데이터 공유 및 활용 방법 |
CA3125623C (en) | 2020-07-21 | 2023-06-27 | Leddartech Inc. | Beam-steering device particularly for lidar systems |
CA3125718C (en) | 2020-07-21 | 2023-10-03 | Leddartech Inc. | Beam-steering devices and methods for lidar applications |
WO2022016277A1 (en) | 2020-07-21 | 2022-01-27 | Leddartech Inc. | Systems and methods for wide-angle lidar using non-uniform magnification optics |
CN112578367B (zh) * | 2020-10-21 | 2023-01-06 | 上汽大众汽车有限公司 | 用于测量自动驾驶系统中摄像头与激光雷达相对时间的系统及方法 |
KR20220095819A (ko) * | 2020-12-30 | 2022-07-07 | 현대자동차주식회사 | 라이다 센서를 이용한 객체 추적 방법 및 장치, 및 이 방법을 실행하기 위한 프로그램을 기록한 기록 매체 |
US11706507B2 (en) | 2020-12-30 | 2023-07-18 | Waymo Llc | Systems, apparatus, and methods for generating enhanced images |
US11651583B2 (en) * | 2021-07-08 | 2023-05-16 | Cyngn, Inc. | Multi-channel object matching |
GB202110950D0 (en) * | 2021-07-29 | 2021-09-15 | Five Ai Ltd | Perception of 3d objects in sensor data |
KR102367138B1 (ko) * | 2021-10-13 | 2022-02-25 | (주)뷰런테크놀로지 | 라이다 센서를 이용하여 횡단보도를 검출하는 방법 및 상기 방법을 수행하는 횡단보도 검출 장치 |
US12085640B2 (en) * | 2021-12-20 | 2024-09-10 | Aptiv Technologies AG | Fuzzy labeling of low-level electromagnetic sensor data |
CN114419922B (zh) * | 2022-01-17 | 2023-04-07 | 北京经纬恒润科技股份有限公司 | 车位识别方法及装置 |
US20230311930A1 (en) * | 2022-03-31 | 2023-10-05 | Zoox, Inc. | Capturing and simulating radar data for autonomous driving systems |
WO2024025421A1 (en) * | 2022-07-29 | 2024-02-01 | Kongsberg Maritime As | Multi-sensor and related aspects |
CN117255252B (zh) * | 2023-10-11 | 2024-04-30 | 上海泽尔汽车科技有限公司 | 一种汽车多媒体数据链路的旁路采集方法及系统 |
CN117471484B (zh) * | 2023-12-28 | 2024-03-05 | 深圳市镭神智能系统有限公司 | 一种行人导航方法、计算机可读存储介质和电子设备 |
CN118468231B (zh) * | 2024-07-11 | 2024-09-27 | 广州高新兴网联科技有限公司 | 雷视融合的数据处理方法、电子设备及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102819951A (zh) * | 2011-06-09 | 2012-12-12 | 无锡物联网产业研究院 | 一种道路目标检测系统、方法及装置 |
WO2017079349A1 (en) * | 2015-11-04 | 2017-05-11 | Zoox, Inc. | System for implementing an active safety system in an autonomous vehicle |
US20180009378A1 (en) * | 2016-07-08 | 2018-01-11 | Ford Global Technologies, Llc | Pedestrian detection when a vehicle is reversing |
US20180053108A1 (en) * | 2016-08-16 | 2018-02-22 | Toyota Jidosha Kabushiki Kaisha | Efficient Driver Action Prediction System Based on Temporal Fusion of Sensor Data Using Deep (Bidirectional) Recurrent Neural Network |
US20180173971A1 (en) * | 2016-12-19 | 2018-06-21 | Waymo Llc | Pedestrian detection neural networks |
CN108229366A (zh) * | 2017-12-28 | 2018-06-29 | 北京航空航天大学 | 基于雷达和图像数据融合的深度学习车载障碍物检测方法 |
CN108628301A (zh) * | 2017-03-20 | 2018-10-09 | 通用汽车环球科技运作有限责任公司 | 用于操作自动驾驶车辆的时间数据关联 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9959624B2 (en) | 2014-12-22 | 2018-05-01 | Volkswagen Ag | Early detection of turning condition identification using perception technology |
US9916703B2 (en) | 2015-11-04 | 2018-03-13 | Zoox, Inc. | Calibration for autonomous vehicle operation |
US11300663B2 (en) * | 2016-03-31 | 2022-04-12 | Nec Corporation | Method for predicting a motion of an object |
US10545229B2 (en) | 2016-04-22 | 2020-01-28 | Huawei Technologies Co., Ltd. | Systems and methods for unified mapping of an environment |
US20180053102A1 (en) | 2016-08-16 | 2018-02-22 | Toyota Jidosha Kabushiki Kaisha | Individualized Adaptation of Driver Action Prediction Models |
US10394237B2 (en) * | 2016-09-08 | 2019-08-27 | Ford Global Technologies, Llc | Perceiving roadway conditions from fused sensor data |
KR20180086632A (ko) | 2017-01-23 | 2018-08-01 | 한국전자통신연구원 | 자율주행 차량의 행동 결정 장치 및 방법 |
US20180373980A1 (en) * | 2017-06-27 | 2018-12-27 | drive.ai Inc. | Method for training and refining an artificial intelligence |
US10841496B2 (en) * | 2017-10-19 | 2020-11-17 | DeepMap Inc. | Lidar to camera calibration based on edge detection |
US20190310651A1 (en) * | 2018-04-10 | 2019-10-10 | Uber Technologies, Inc. | Object Detection and Determination of Motion Information Using Curve-Fitting in Autonomous Vehicle Applications |
US10676085B2 (en) * | 2018-04-11 | 2020-06-09 | Aurora Innovation, Inc. | Training machine learning model based on training instances with: training instance input based on autonomous vehicle sensor data, and training instance output based on additional vehicle sensor data |
-
2018
- 2018-10-22 US US16/167,007 patent/US11061406B2/en active Active
-
2019
- 2019-10-16 WO PCT/US2019/056522 patent/WO2020086358A1/en unknown
- 2019-10-16 CN CN201980084687.2A patent/CN113196103A/zh active Pending
- 2019-10-16 EP EP19876396.3A patent/EP3853634A4/en not_active Withdrawn
-
2021
- 2021-06-09 US US17/343,187 patent/US20210294346A1/en active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102819951A (zh) * | 2011-06-09 | 2012-12-12 | 无锡物联网产业研究院 | 一种道路目标检测系统、方法及装置 |
WO2017079349A1 (en) * | 2015-11-04 | 2017-05-11 | Zoox, Inc. | System for implementing an active safety system in an autonomous vehicle |
US20180009378A1 (en) * | 2016-07-08 | 2018-01-11 | Ford Global Technologies, Llc | Pedestrian detection when a vehicle is reversing |
US20180053108A1 (en) * | 2016-08-16 | 2018-02-22 | Toyota Jidosha Kabushiki Kaisha | Efficient Driver Action Prediction System Based on Temporal Fusion of Sensor Data Using Deep (Bidirectional) Recurrent Neural Network |
US20180173971A1 (en) * | 2016-12-19 | 2018-06-21 | Waymo Llc | Pedestrian detection neural networks |
CN108628301A (zh) * | 2017-03-20 | 2018-10-09 | 通用汽车环球科技运作有限责任公司 | 用于操作自动驾驶车辆的时间数据关联 |
CN108229366A (zh) * | 2017-12-28 | 2018-06-29 | 北京航空航天大学 | 基于雷达和图像数据融合的深度学习车载障碍物检测方法 |
Non-Patent Citations (2)
Title |
---|
DAMIEN MATTI 等: "Combining LiDAR Space Clustering and Convolutional Neural Networks for Pedestrian Detection", 《2017 14TH IEEE INTERNATIONAL CONFERENCE ON ADVANCED VIDEO AND SIGNAL BASED SURVEILLANCE》, pages 1 - 7 * |
HONGBO GAO 等: "Object Classification Using CNN-Based Fusion of Vision and LIDAR in Autonomous Vehicle Environment", 《IEEE TRANSACTIONS ON INDUSTRIAL INFORMATICS》, pages 4224 - 4231 * |
Also Published As
Publication number | Publication date |
---|---|
US11061406B2 (en) | 2021-07-13 |
EP3853634A4 (en) | 2022-06-22 |
US20210294346A1 (en) | 2021-09-23 |
EP3853634A1 (en) | 2021-07-28 |
US20200125112A1 (en) | 2020-04-23 |
WO2020086358A1 (en) | 2020-04-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210294346A1 (en) | Object Action Classification For Autonomous Vehicles | |
KR102558774B1 (ko) | 자율 주행 차량을 위한 교통 신호등 검출 및 차선 상태 인식 | |
EP3877965B1 (en) | Detecting unfamiliar traffic signs | |
US10902272B2 (en) | Phrase recognition model for autonomous vehicles | |
US12079004B2 (en) | Verification of iterative closest point alignments for autonomous vehicles | |
US20230046289A1 (en) | Automatic labeling of objects in sensor data | |
US12085935B2 (en) | Open door reconstruction for sensor simulation | |
US20240017741A1 (en) | Validation of trajectory planning for autonomous vehicles | |
US12030509B1 (en) | Realism in log-based simulations |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |