CN115991207A - 驾驶应用中真标志和图像标志检测的识别 - Google Patents
驾驶应用中真标志和图像标志检测的识别 Download PDFInfo
- Publication number
- CN115991207A CN115991207A CN202211287015.1A CN202211287015A CN115991207A CN 115991207 A CN115991207 A CN 115991207A CN 202211287015 A CN202211287015 A CN 202211287015A CN 115991207 A CN115991207 A CN 115991207A
- Authority
- CN
- China
- Prior art keywords
- flag
- image
- marker
- candidate
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title description 16
- 239000003550 marker Substances 0.000 claims abstract description 143
- 238000012795 verification Methods 0.000 claims abstract description 77
- 238000000034 method Methods 0.000 claims abstract description 69
- 230000008447 perception Effects 0.000 claims description 59
- 238000012545 processing Methods 0.000 claims description 39
- 238000010200 validation analysis Methods 0.000 claims description 26
- 238000010801 machine learning Methods 0.000 claims description 9
- 238000002604 ultrasonography Methods 0.000 claims description 7
- 238000012549 training Methods 0.000 description 41
- 230000015654 memory Effects 0.000 description 15
- 230000008569 process Effects 0.000 description 13
- 238000013507 mapping Methods 0.000 description 12
- 238000012544 monitoring process Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 10
- 230000033001 locomotion Effects 0.000 description 9
- 230000007613 environmental effect Effects 0.000 description 8
- 238000013528 artificial neural network Methods 0.000 description 7
- 230000005540 biological transmission Effects 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 7
- 230000003287 optical effect Effects 0.000 description 7
- 230000001427 coherent effect Effects 0.000 description 6
- 210000002569 neuron Anatomy 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 238000002592 echocardiography Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000005291 magnetic effect Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000010276 construction Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 238000011176 pooling Methods 0.000 description 3
- 230000003068 static effect Effects 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 230000002085 persistent effect Effects 0.000 description 2
- 238000001556 precipitation Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 2
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000002485 combustion reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 239000000428 dust Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000446 fuel Substances 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 231100001261 hazardous Toxicity 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 239000003595 mist Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000011022 operating instruction Methods 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 239000011435 rock Substances 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
- G06V20/58—Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
- G06V20/582—Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads of traffic signs
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W60/00—Drive control systems specially adapted for autonomous road vehicles
- B60W60/001—Planning or execution of driving tasks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2431—Multiple classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/803—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of input or preprocessed data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/98—Detection or correction of errors, e.g. by rescanning the pattern or by human intervention; Evaluation of the quality of the acquired patterns
- G06V10/993—Evaluation of the quality of the acquired pattern
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/64—Three-dimensional objects
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W2420/00—Indexing codes relating to the type of sensors based on the principle of their operation
- B60W2420/40—Photo, light or radio wave sensitive means, e.g. infrared sensors
- B60W2420/403—Image sensing, e.g. optical camera
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W2420/00—Indexing codes relating to the type of sensors based on the principle of their operation
- B60W2420/40—Photo, light or radio wave sensitive means, e.g. infrared sensors
- B60W2420/408—Radar; Laser, e.g. lidar
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W2420/00—Indexing codes relating to the type of sensors based on the principle of their operation
- B60W2420/54—Audio sensitive means, e.g. ultrasound
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W2552/00—Input parameters relating to infrastructure
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Quality & Reliability (AREA)
- Automation & Control Theory (AREA)
- Human Computer Interaction (AREA)
- Transportation (AREA)
- Mechanical Engineering (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Traffic Control Systems (AREA)
Abstract
所描述的方面和实现使得能够在自动车辆(AV)应用中有效识别真标志和图像标志。在一个实施方式中,公开了一种方法和执行该方法的系统,包括使用AV的感测系统获得包括AV的环境的区域的相机图像和深度信息的组合图像,将组合图像中的第一标志分类为图像真标志,执行第一标志的空间验证,其包括评估第一标志和AV的环境区域中的一个或多个对象的空间关系,并基于所执行的空间验证将第一标志识别为真标志。
Description
技术领域
本说明书总体上涉及自动车辆。更具体地,本说明书涉及使用允许在自动车辆的运行时间操作期间区分真标志检测和图像标志反射的技术来改进自动驾驶系统和部件。
背景技术
自动(完全和部分自动驾驶)车辆(AV)通过各种电磁(例如,雷达和光学)和非电磁(例如,音频和湿度)传感器感应外部环境来运行。一些自动车辆基于感测的数据绘制穿过环境的驾驶路径。驾驶路径可以基于全球定位系统(GPS)数据和道路地图数据来确定。而GPS和道路地图数据可以提供关于环境的静态方面的信息(建筑物、街道布局、道路封闭等。)、动态信息(如其他车辆、行人、路灯等信息)是从同时收集的感测数据中获得的。由自动车辆选择的驾驶路径和速度范围的精度和安全性取决于对驾驶环境中存在的各种对象的及时和准确的识别,以及取决于驾驶算法处理关于环境的信息并向车辆控制和传动系统提供正确指令的能力。
发明内容
在一种实施方式中,公开了一种包括车辆感测系统的系统,所述感测系统配置为获取组合图像,所述组合图像包括车辆环境区域的相机图像和车辆环境区域的深度信息,其中所述深度信息包括激光雷达数据、雷达数据、立体图像数据或超声波数据中的至少一个。该系统还包括车辆的感知系统,该感知系统被配置为将组合图像中的第一标志分类为图像真标志,执行第一标志的空间验证,该空间验证包括评估第一标志和车辆环境区域中的一个或多个对象的空间关系,并且基于所执行的空间验证将第一标志识别为真标志。
在另一实施方式中,公开了一种系统,其包括车辆的感测系统,所述感测系统配置为获取第一数据,所述第一数据包括车辆驾驶环境的第一部分的激光雷达数据和相机数据,所述第一部分描绘第一候选标志,并获取第二数据,所述第二数据包括驾驶环境的第二部分的激光雷达数据和相机数据,所述第二部分描绘第二候选标志。所公开的系统还包括感知系统,感知系统被配置为使用机器学习模型(MLM)处理第一数据,以确定第一候选标志的第一标志类型;使用MLM处理第二数据,以确定第二候选标志的第二标志类型;基于第一标志类型和第二标志类型,确定第一候选标志是第二候选标志的镜像;识别位于第二候选标志和车辆的感测系统之间的反射表面;识别第二候选标志位于相对于反射表面是第一候选标志位置的镜像的位置的公差区域内;并且确定第一候选标志是真标志,第二候选标志是图像标志。
在另一实施方式中,公开了一种方法,包括使用车辆的感测系统获取组合图像,该组合图像包括车辆环境区域的相机图像和车辆环境区域的深度信息,其中深度信息包括激光雷达数据、雷达数据、立体图像数据或超声波数据中的至少一个;将组合图像中的第一标志分类为图像真标志;执行第一标志的空间验证,该空间验证包括评估第一标志和车辆环境区域中的一个或多个对象的空间关系;以及基于所执行的空间验证,将第一标志识别为真标志。
附图说明
本公开内容以示例的方式进行说明,而不是以限制的方式进行说明,可参考当结合附图考虑时的以下详细说明更全面地理解本公开内容,其中:
图1为根据本公开的一些实施方式,能够进行有效标志识别和验证的示例自动车辆(AV)的部件示意图。
图2示出了根据本公开的一些实施方式运行的车辆感知系统的标志识别模块可使用的标志分类示例。
图3为根据本公开的一些实施方式,能够进行有效标志识别和验证的车辆感知系统的一部分的示例架构图。
图4A是根据本公开的一些实施方式,说明车辆的激光雷达用于有效和可靠的标志检测的示例标志识别和验证操作的示意图。
图4B为根据本公开的一些实施方式,使用机器学习模型进行标志识别和标志验证的示例标志识别和验证操作的示意图。
图5示意性示出了驾驶环境的区域,其包括使用根据本公开的一些实施方式操作的技术识别和验证的标志。
图6示意性说明了根据本公开的一些实施方式,可用作候选标志的几何验证的一部分的示例几何构造。
图7示出了根据本公开的一些实施方式,在车辆驾驶环境中真标志的识别和验证示例方法。
图8示出了根据本公开的一些实施方式,在车辆驾驶环境中图像标志识别的示例方法。
图9描绘了根据本公开的一些实施方式,能够在自动驾驶环境中有效识别和验证真标志和图像标志的示例计算机设备的框图。
具体实施方式
自动车辆可以采用无线电探测和测距(雷达)技术以及光探测和测距(激光雷达)技术来检测到环境中各种对象的距离以及这些对象的速度。传感器(雷达或激光雷达)发射一个或多个传播到对象的无线电波(或激光)信号(例如脉冲),然后检测从对象反射的到达信号。通过确定信号发射和反射波到达之间的时间延迟,传感器可以确定到对象的距离。典型的传感器向多个方向发射信号,以获得外部环境的广阔视野。例如,传感器(雷达或激光雷达)可以通过使用一系列用时间戳标识的连续感测帧来覆盖整个360度视野。结果,空间中的每个扇区以时间增量Δτ被感测,该时间增量由传感器扫描速度的角速度确定。有时,通过一次全面扫描可以获得环境的360度视野。或者,可以根据需要扫描任何更小的扇区,例如1度扇区、5度扇区、10度扇区或任何其他扇区。
每个帧可以包括对应于来自环境的各种对象的反射的许多返回点(或简称为“点”)。每个点可以与到相应对象的距离相关联,或者更具体地,与到负责相应返回点的对象反射表面(反射区域)的元件的距离相关联。给定帧内的一组点可以称为“点云”点云可以包括来自多个对象的回波。通常,事先不知道给定帧内有多少对象以及帧中的对象属于的类型(例如,汽车、卡车、公共汽车、摩托车、行人、路标、树木等)。
飞行时间(ToF)传感器通常用于测距。ToF还能够通过快速连续地发射两个或更多个信号(例如,作为不同感测帧的一部分),并在表面随着每个附加帧移动时检测反射表面的位置,来确定返回点的速率(运动的速度和方向)。连续信号(帧)之间的间隔可以足够短,使得对象不会明显改变其相对于环境中其他对象的位置,但是仍然足够长,以允许雷达或激光雷达精确地检测对象位置的变化。相干传感器,例如调频连续波(FMCW)雷达和/或激光雷达,利用编码到发送信号中的相位信息(并由发射的电磁波携带到目标并返回)并提供附加功能。相干传感器检测由反射表面的运动引起的反射波的频率(和伴随的相位)中的变化,这种现象称为多普勒效应。反射波的频率/相位对平行于波传播方向的反射表面速率Vr的分量敏感,这里称为“径向”速率。相干传感器允许将径向速率与点云的返回点相关联。该附加信息(可以单独获得或者与距离信息一起获得)帮助自动车辆的感测系统识别各种对象的运动状态。此外,激光雷达回波在强度上根据反射表面的类型而变化(例如,汽车的窗户对汽车的门,交通标志的黑色部分对交通标志的白色部分),并且因此允许感测到的对象的至少一些成像。
相机(例如,照相机或摄像机)可在较短和较长距离上实现对象的高分辨率,将三维空间投影到二维图像平面(或其他非平面表面)上。相机图像可以由对象/文本识别软件处理,该软件尤其识别具有重要语义信息的对象,例如道路路面上的标识(例如,车道的边界、停车线的位置等。)和交通标志。例如,对象/文本识别软件可以处理十字路口的图像,并识别十字路口入口处是否存在停止标志、禁止掉头的标志、指示在右车道驾驶的车辆必须右转的标志、指示十字路口后的右车道为公共汽车保留的标志等。及时正确地识别交通标志对于安全自动驾驶和遵守驾驶法律法规非常重要。
然而,标志的识别有时会受到驾驶环境中可能存在的各种表面的反射的干扰。例如,真标志可以伴随有由足够光滑的反射表面产生的真标志的图像(在本公开中称为图像标志或图像反射),所述反射表面例如是车辆的窗户、公共汽车的涂漆光滑侧板、建筑物的窗户、公共汽车站的玻璃墙等。当图像标志被识别为真标志时,在选择自动车辆的驾驶路径时会导致危险的错误。例如,指示交通必须右转的真标志可以生成其指示交通必须左转的镜像(例如,从在自动车辆附近行驶的公共汽车反射)。如果自动车辆识别出图像标志是真实的并左转,则可能会发生导致碰撞的危险情况。
现有标志识别技术使用多种技术来识别图像标志。例如,来自视在标志(apparentsign)(候选标志)的激光雷达回波(激光雷达信号反射)可以与相邻回波(来自与标志方向略有不同的角度的回波)进行比较。如果相邻的回波指示比视在标志更近的对象的存在,这样的对象被识别为反射表面,视在标志被识别为图像标志。然而,这种方法容易将真标志归类为反射(假阴性)。例如,邻近的回波可能来自发动机废气、尘雾或经过的汽车车身。
另一种技术包括评估反射表面的光滑度,光滑的反射表面有利于确定为反射的视在标志。然而,这种方法不太可靠。非常平滑的(因此大部分是镜面的)反射表面可以具有很少的漫反射,这是激光雷达信号反射回激光雷达所必需的,因为激光雷达信号入射的方向通常不同于垂直于反射表面的方向。
本公开的方面和实施方式通过启用快速可靠地将候选路标分类为真标志或反射的方法和系统,解决了现有标志检测技术的这些和其他缺点。本公开的各种实施方式描述了一种标志识别和验证系统,该系统使用一个或多个机器学习模型(MLM)来将各种候选标志分类为图像真标志或图像伪标志。图像真标志是具有有效镜像对应物的标志(例如,左箭头标志具有作为镜像对应物的有效右箭头标志)。图像伪标志是指没有有效镜像对应物的标志(例如,“禁止掉头”标志没有有效镜像对应物)。被分类为图像伪标志的标志可以被确定为真标志。被分类为图像伪标志的镜像的标志可以被确定为反射。被分类为图像真标志的标志可以是真标志或反射,因此可以被引导用于进一步的空间验证处理。空间验证处理可以包括验证是否有任何其他检测到的对象遮挡了视在标志的直接视野(这种对象的存在有利于图像标志,但不是图像标志的决定因素)。空间验证可以进一步包括确定是否存在位于相同或附近区域内的可能是图像源的另一个标志(这种标志的存在有利于确定图像标志)。在一些实施方式中,空间验证可以包括使用附加的机器学习模型、访问道路地图信息等。所描述的实施方式的优点包括在自动车辆应用中对标志进行快速和准确的分类。对自动驾驶汽车的这种改善的感知转化为更安全和遵守交通规则的自动驾驶。
尽管为简洁起见,结合自动车辆描述了各种系统和方法,但类似技术可用于未达到完全自动驾驶系统水平的各种驾驶员辅助系统。更具体地,所公开的技术可以用于实施转向、制动、加速、车道居中、自适应巡航控制等的2级驾驶员辅助系统,以及其他驾驶员支持。同样,所公开的技术可以用于能够在受限条件下(例如,高速公路)自动驾驶的3级驾驶辅助系统。在这样的系统中,快速和准确的标志分类可以用于通知驾驶员检测到的真标志和图像标志(例如,在2级系统中),由驾驶员做出最终的驾驶决定,或者做出某些驾驶决定(例如,在3级系统中),例如忽略图像标志,而不需要驾驶员的反馈。
图1为根据本公开的一些实施方式,能够执行有效标志识别和验证的示例自动车辆(AV)100的部件的示意图。自动车辆可以包括能够在自动驾驶模式下操作(无需人工输入或减少人工输入)的机动车辆(汽车、卡车、公共汽车、摩托车、全地形车辆、娱乐车辆、任何专用农业或建筑车辆等)、航空器(飞机、直升机、无人机等)、航海器(船舶、船只、游艇、潜艇等)或任何其他自推进车辆(例如,机器人、工厂或仓库机器人车辆、人行道递送机器人车辆等)。
驾驶环境101可包括位于AV外部的任何对象(活动或非活动),如道路、建筑物、树木、灌木丛、人行道、桥梁、山脉、其他车辆、行人等。驾驶环境101可以是城市、郊区、乡村等等。在一些实施方式中,驾驶环境101可以是越野环境(例如,农场或其他农业用地)。在一些实施方式中,驾驶环境可以是室内环境,例如工厂、运输仓库、建筑物的危险区域等环境。在一些实施方式中,驾驶环境101可以是基本平坦的,各种对象平行于表面(例如,平行于地球表面)移动。在其他实施方式中,驾驶环境可以是三维的,并且可以包括能够沿着所有三个方向移动的对象(例如,气球、树叶等)。在下文中,术语“驾驶环境”应当理解为包括自推进车辆的自动运动能够发生的所有环境。例如,“驾驶环境”可以包括飞行器的任何可能的飞行环境或航海器的海洋环境。驾驶环境101的对象可以位于离AV的任何距离,从几英尺(或更短)到几英里(或更远)的近距离。
示例AV 100可包括感测系统110。感测系统110可以包括各种电磁(例如,光学)和非电磁(例如,声学)感测子系统和/或设备。感测系统110可以包括雷达114(或多个雷达114),其可以是利用无线电或微波频率信号来感测AV 100的驾驶环境101内的对象的任何系统。雷达114可以被配置成感测对象的空间位置(包括它们的空间维度)和对象的速率(例如,使用多普勒频移技术)。在下文中,“速率”指的是对象移动多快(对象的速度)以及对象运动的方向。感测系统110可以包括激光雷达112,其可以是基于激光的单元,能够确定驾驶环境101中到对象的距离和对象的速率。激光雷达112和雷达114中的每一个都可以包括相干传感器,例如调频连续波(FMCW)激光雷达或雷达传感器。例如,雷达114可以使用外差检测来确定速率。在一些实施方式中,ToF和相干雷达的功能被结合到能够同时确定到反射对象的距离和反射对象的径向速率的雷达单元中。这种单元可以被配置成以非相干感测模式(ToF模式)和/或相干感测模式(例如,使用外差检测的模式)或者同时以这两种模式工作。在一些实施方式中,多个激光雷达112或雷达114可以安装在AV 100上。
激光雷达112可包括一个或多个产生和发射信号的光源,以及一个或多个从对象反射回来的信号检测器。在一些实施方式中,激光雷达112可以在水平方向上执行360度扫描。在一些实施方式中,激光雷达112能够沿着水平和垂直方向进行空间扫描。在一些实施方式中,视场在垂直方向上可以高达90度(例如,用雷达信号扫描地平线以上的至少一部分区域)。在一些实施方式中,视场可以是完整的球体(由两个半球组成)。
感测系统110可进一步包括一个或多个相机118,以捕捉驾驶环境101的图像。图像可以是驾驶环境101(或驾驶环境101的一部分)在相机的投影表面(平面或非平面)上的二维投影。感测系统110的一些相机118可以是被配置成捕获驾驶环境101的连续(或准连续)图像流的相机。在一些实施方式中,感测系统110还可以包括一个或多个声纳116,其可以是超声波声纳。
由感测系统110获得的感测数据可由AV 100的数据处理系统120处理。例如,数据处理系统120可以包括感知系统130。感知系统130可以被配置成检测和跟踪驾驶环境101中的对象,并识别检测到的对象。例如,感知系统130可以分析由相机118捕获的图像,并且能够检测交通灯信号、路标、道路布局(例如,交通车道的边界、十字路口的拓扑、停车位的指定等)、障碍物的存在等。感知系统130还可以接收雷达感测数据(多普勒数据和ToF数据),以确定到环境101中各种对象的距离和这些对象的速率(径向的,以及在一些实施方式中,横向的,如下所述)。在一些实施方式中,感知系统130可以结合由相机118捕获的数据使用雷达数据,如下面更详细描述的。
感知系统130可包括一个或多个模块,以便于使用相机和激光雷达数据识别和验证(确认)检测到的标志,包括可用于识别感测系统110检测到的标志类型的标志识别模块(SIM)132和可用于确定识别的标志是真标志还是标志反射的标志验证模块(SVM)134。由SIM 132和SVM 134处理的数据可以包括由相机118获得的图像和激光雷达反射(回波)的强度。可以获得AV 100的驾驶环境101的区域的数据。更具体地,在一些实施方式中,SIM 132可以接收该区域的相机和激光雷达图像的裁剪部分,并使用机器学习模型(MLM)来处理裁剪部分,以识别标志的类型,例如,停止标志、规定(或禁止)运动方向的标志、强加最小/最大速度的标志等。SIM 132的输出可用于识别观察到的标志所属的类别。
图2示出了根据本公开的一些实施方式运行的车辆感知系统的标志识别模块可使用的标志分类示例。图像真标志200可以包括非对称标志,例如,其镜像是另一个有效标志的标志202-208,以及对称标志,例如,其镜像与原始标志一致的标志222-226。例如,图像真标志“靠左”202和“靠右”204是彼此的镜像。类似地,图像真标志“直行或左转”206和“直行或右转”208是彼此的镜像。标志“前方让行标志”210、“靠左或靠右行驶”212和“请勿进入”214是对称标志。图像伪标志220包括其镜像是无效标志的标志。例如,“停止”标志222、“速度限制”标志224和“禁止掉头”标志226是图像伪标志。在一些实施方式中,标志的分类可以取决于激光雷达分辨率、能见度条件等。例如,“铁路道口”标志226虽然是非对称的(因此,属于图像伪标志220的类别),但有时仍可被分类为图像真标志,例如,如果字母“R”的分辨率不足以确定它们的方向。
再次参考图1,SIM 132对观察到的候选标志进行初始识别,并将候选标志分为多个类别。A类包括是伪图像的标志。在确定观察到的标志是伪图像时,SIM 132可以识别该标志是真实的。B类包括其镜像为图像伪标志的标志。已经确定观察到的标志属于B类,SIM132可以将该标志识别为反射而不是真标志。例如,SIM 132可以确定标志232是伪图像的“停止”标志222的镜像,并将标志232识别为图像标志(反射)。C类包括是图像真实的标志。被分类为图像真实的观察到的标志可以由SVM 134进一步处理,其基于可用的空间上下文做出关于标志的性质(例如,真实或图像)的最终确定,如下面更详细描述的。在分类SIM132的置信水平低(例如,低于某个经验测试的阈值)的那些情况下,有问题的标志可以被分类为图像真标志,并且被提供用于SVM 134的后续验证。
感知系统130可进一步从定位子系统(图1中未显示)接收信息,定位子系统可包括配置为获取AV相对于地球及其周围环境的位置信息的GPS收发器(未显示)。定位子系统可以结合感测数据使用定位数据(例如,GPS和IMU数据)来帮助准确地确定AV相对于驾驶环境101的固定对象(例如,道路、车道边界、十字路口、人行道、人行横道、路标、路边、周围建筑物等)的位置,其位置可以由地图信息135提供。在一些实施方式中,数据处理系统120可以接收非电磁数据,例如音频数据(例如,超声波传感器数据,或者来自拾取紧急车辆警报的麦克风的数据)、温度传感器数据、湿度传感器数据、压力传感器数据、气象数据(例如,风速和风向、降水数据)等。
数据处理系统120可进一步包括环境监测和预测组件126,其可监测驾驶环境101如何随时间演变,例如,通过跟踪有生命对象的位置和速率(例如,相对于地球)。在一些实施方式中,环境监视和预测组件126可以跟踪由于AV相对于环境的运动而导致的环境外观的变化。在一些实施方式中,环境监控和预测组件126可以做出关于驾驶环境101的各种活动对象将如何位于预测时间范围内的预测。预测可以基于活动对象的当前位置和速率,以及在某个(例如,预定的)时间段期间活动对象的被跟踪的动态。例如,基于指示对象1在前3秒时间段期间的加速运动的对象1的存储数据,环境监视和预测组件126可以断定对象1正从停止标志或红色交通灯信号恢复其运动。因此,给定道路的布局和其他交通工具的存在,环境监控和预测组件126可以预测对象1在接下来的3或5秒内可能在哪里运动。作为另一个例子,基于指示对象2在前2秒时间段期间的减速运动的对象2的存储数据,环境监视和预测组件126可以推断对象2正停在停止标志或红色交通灯信号处。因此,环境监视和预测组件126可以预测在接下来的1或3秒内对象2可能在哪里。环境监视和预测组件126可以对其预测的准确性执行周期性检查,并基于从感测系统110获得的新数据来修改预测。环境监控和预测组件126可以结合SIM132和SVM 134来操作。尽管在图1中没有明确示出,但是在一些实施方式中,SIM 132和SVM 134可以集成到环境监控和预测组件126中。
感知系统130、GPS数据处理模块122以及环境监测和预测组件126产生的数据可由自动驾驶系统使用,例如AV控制系统(AVCS)140。AVCS 140可以包括一个或多个算法,该算法控制AV在各种驾驶情况和环境下如何表现。例如,AVCS 140可以包括用于确定到目的地点的全球驾驶路线的导航系统。AVCS 140还可以包括驾驶路径选择系统,用于选择通过即刻驾驶环境的特定路径,这可以包括选择车道、通过交通拥堵、选择掉头的地点、选择停车策略的轨迹等等。AVCS 140还可以包括避障系统,用于安全避开AV驾驶环境中的各种障碍物(岩石、熄火的车辆、乱穿马路的行人等等)。避障系统可以被配置为评估障碍物的大小和障碍物的轨迹(如果障碍物是活动的),并选择最佳驾驶策略(例如,制动、转向、加速等。)来避开障碍物。
AVCS 140的算法和模块可为车辆的各种系统和部件生成指令,例如动力系统、制动和转向系统150、车辆电子系统160、信号系统170以及图1中未明确显示的其他系统和组件。动力系、制动器和转向150可以包括发动机(内燃机、电动发动机等)、变速器、差速器、车轴、车轮、转向机构和其他系统。车辆电子设备160可以包括车载计算机、发动机管理、点火、通信系统、汽车计算机、远程信息处理、车内娱乐系统以及其他系统和组件。信号170可以包括高低前灯、刹车灯、转向灯和倒车灯、喇叭和警报器、内部照明系统、仪表板通知系统、乘客通知系统、无线电和无线网络传输系统等等。由AVCS140输出的一些指令可以被直接传送到动力系、制动和转向150(或信号170),而由AVCS 140输出的其他指令首先被传送到车辆电子设备160,车辆电子设备160产生对动力系、制动和转向150和/或信号170的命令。
在一个示例中,AVCS 140可通过减速车辆直至达到安全速度,然后驾驶车辆绕过障碍物,确定要避开数据处理系统120识别的障碍物。AVCS 140可以向动力系、制动和转向150输出指令(直接或通过车辆电子设备160),以:(1)通过修改节气门设置来减少流向发动机的燃料流量,从而降低发动机转速;(2)通过自动变速器将动力传动系统降档到较低档位;(3)接合制动装置以降低(同时与发动机和变速器协同作用)车辆速度,直到达到安全速度;以及(4)使用动力转向机构执行转向操作,直到安全绕过障碍物。随后,AVCS 140可以向动力系、制动和转向150输出指令,以恢复车辆先前的速度设置。
自动车辆可以包括能够在自动驾驶模式下操作(无需人工输入或减少人工输入)的机动车辆(汽车、卡车、公共汽车、摩托车、全地形车辆、娱乐车辆、任何专用农业或建筑车辆等)、航空器(飞机、直升机、无人机等)、航海器(船舶、船只、游艇、潜艇等)、机器人车辆(例如,工厂、仓库机、人行道递送机器人等)或任何其他自推进车辆。“对象”可以包括位于自动车辆外部的任何实体、项目、设备、主体或物品(活动的或不活动的),例如道路、建筑物、树木、灌木丛、人行道、桥梁、山脉、其他车辆、码头、银行、着陆带、动物、鸟类或其他事物。
图3是示出了根据本公开的一些实施方式的车辆感知系统的一部分的示例架构300的示意图,该车辆感知系统能够进行有效的标志识别和验证。感知系统(例如,图1的感知系统130)的输入可以包括由感测系统110(例如,由激光雷达112和相机118)获得的数据,诸如距离数据、径向速率数据、相机像素数据等。例如,激光雷达数据获取模块310可以提供包括激光雷达强度图I(R,θ,φ)的激光雷达数据,其中R,θ,φ是一组球面坐标。在一些实施方式中,可以替代使用笛卡尔坐标、椭圆坐标、抛物线坐标或任何其他合适的坐标。激光雷达强度图识别激光雷达视场中各个点的激光雷达反射的强度。反射激光雷达信号的对象(或对象的表面)的坐标可以根据方向数据(例如,雷达传输方向上的极角θ和方位角φ)和距离数据(例如,根据雷达信号的ToF确定的径向距离R)来确定。激光雷达数据还可以包括基于反射信号的检测到的多普勒频移识别的各种反射对象的速率数据。激光雷达多普勒数据可以用于识别标志(例如,用于过滤非标志返回),因为感兴趣的标志(例如,交通标志)可以预期相对于地球是静止的。尽管图3(和图4A-B)引用了激光雷达数据,但是在一些实施方式中,提供关于对象的深度信息的各种其他数据可以代替激光雷达数据或者除了激光雷达数据之外被使用。例如,深度信息可以包括使用一个或多个雷达114获得的雷达数据或者使用声纳116获得的超声波数据。深度信息还可以包括立体图像数据,例如,由多个相机118从各种有利点位获得的数据。深度信息还可以包括前述数据的任意组合。
相机图像获取模块312可以获取图像序列。每个图像可以有不同强度的单色(黑白图像)或多色(彩色图像)像素。由相机图像获取模块312获取的图像可以是全景图像或描绘驾驶环境的特定部分的图像,例如被分割成较小图像的大图像(例如全景图像)。
SIM 132可以处理激光雷达数据获取模块310和相机图像获取模块312的输出。SIM132可以组合特定感兴趣区域(例如,对应于前视视野)的激光雷达数据和相机数据,并选择包含标志图像的感兴趣区域的一个或多个部分。这里使用的术语“标志”应该理解为具有语义信息的任何对象,例如任何交通标志,包括但不限于警告标志、优先标志、禁止标志、强制标志、方向标志、信息标志等。“标志”还可以包括语义信息的任何载体,例如带有书写在其上的单词“警察”、“救护车”、“消防队”、“出租车”等的车辆。标志还可以包括广告牌、零售店标志、政府、商业和住宅建筑的名称等。
感兴趣区域的裁剪部分可以由一个或多个MLM处理,例如,标志识别MLM(MLM-I)320。MLM-I 320可以识别感兴趣区域的图像中描绘的一个或多个候选标志的类别。由SIM132部署的MLM-I 320可以包括决策树算法、支持向量机、深度神经网络等。深度神经网络可以包括卷积神经网络、具有一个或多个隐藏层的递归神经网络(RNN)、全连接神经网络、长短期记忆神经网络、波尔兹曼机器等等。
感知系统还可包括SVM 134,其可接收未被SIM 132分类为图像标志的标志图像。SVM 134可以在感兴趣区域的更广泛背景下评估与候选标志的位置相关的几何信息。更具体地,SVM 134可以识别另一个标志(对应物标志),其从一些反射表面的反射可以作为观察到的候选标志出现。在其他情况下,SVM 134可以识别在AV的驾驶环境中不存在这样的标志。基于这样的多重几何检查,SVM 134可以执行关于在AV的驾驶环境中检测到的各种标志的性质(例如,真标志或图像反射)的最终确定。在一些实施方式中,SVM 134可以部署一个或多个附加的MLM,例如标志验证MLM(MLM-V 330)来辅助最终确定。被确定为真实的各种标志的位置和语义可以被提供给AVCS 140。考虑到检测到的真标志的位置和含义,AVCS 140绘制或调整AV的当前驾驶轨迹(驾驶路径),例如,执行交通标志强制或允许的操纵,放弃禁止的操纵,选择速度体系,遵循车辆通过交叉路口的规定顺序,等等。
MLM-I 320和/或MLM-V 330可使用实际相机图像和激光雷达数据进行训练,所述实际相机图像和激光雷达数据描绘各种对象(车辆、建筑物、结构、水体等)的真标志和真标志的图像反射。训练图像可以用地面实况来注释,地面实况可以包括例如基于人类输入对标志是真实的还是图像的正确识别。训练可以由训练服务器340托管的训练引擎342来执行,训练服务器340可以是部署了一个或多个处理设备(例如,中央处理单元(CPU)、图形处理单元(GPU)等)的外部服务器。在一些实施方式中,MLM-I 320和/或MLM-V 330可以由训练引擎242来训练,并且随后被下载到AV 100的感知系统130上。如图3所示,可以使用包括训练输入344和相应的目标输出346(相应训练输入的正确匹配)的训练数据来训练MLM-I 320和/或MLM-V 330。在MLM-I 320和/或MLM-V 330的训练期间,训练引擎342可以在训练数据中找到将每个训练输入344映射到目标输出346的模式。
训练引擎342可访问数据存储库350,该数据存储库存储各种环境下实际驾驶情况的多个相机图像252和激光雷达数据实例354。在训练期间,训练引擎342可以选择(例如,随机地)多个相机图像352和多组激光雷达数据354作为训练数据。可以用正确的标志标识来注释训练数据。在一些实施方式中,开发者可以在注释数据被放入数据储存库350之前进行注释。由训练服务器340从数据储存库350检索的带注释的训练数据可以包括一个或多个训练输入344和一个或多个目标输出346。训练数据还可以包括将训练输入344映射到目标输出346的映射数据348。在一些实施方式中,映射数据348可以识别真标志及其在给定相机图像和伴随的激光雷达数据内的图像反射。映射数据348可以包括训练数据的标识符、真标志的位置、标志的图像反射的位置、到标志和标志的图像反射的距离、标志的类型以及其他合适的信息。
在MLM-I 320和/或MLM-V 330的训练期间,训练引擎342可以改变MLM-I 320和/或MLM-V 330的各种模型的参数(例如,权重和偏差),直到模型成功地学会如何预测候选标志的正确识别和验证(目标输出346)。在一些实施方式中,MLM-I 320和/或MLM-V 330可以被单独训练。在一些实施方式中,MLM-I 320和/或MLM-V 330可以被一起训练(例如,并发地)。不同的模型可以具有不同的架构(例如,不同数量的神经元层和不同拓扑的神经连接),并且可以具有不同的设置(例如,激活函数等)。
根据本公开的各种实施方式,数据储存库350可以是能够存储激光雷达数据、相机图像以及数据结构的永久存储器,该数据结构被配置为促进对标志检测的准确和快速的识别和验证。数据储存库350可以由一个或多个存储设备托管,例如主存储器、基于磁或光存储的盘、磁带或硬盘驱动器、NAS、SAN等等。尽管被描绘为与训练服务器340分离,但是在一个实施方式中,数据储存库350可以是训练服务器340的一部分。在一些实施方式中,数据储存库350可以是网络附接的文件服务器,而在其他实施方式中,数据储存库350可以是一些其他类型的永久存储器,例如面向对象的数据库、关系数据库等,其可以由服务器机器或训练服务器340可通过网络(图3中未示出)访问的一个或多个不同的机器来托管。
图4A是示出了根据本公开的一些实施方式的示例性标志识别和验证操作400的示意图,该操作400由车辆的激光雷达用于有效和可靠的标志检测。操作400可以由图1的感知系统130的SIM 132和SVM 134来执行。在一个实施方式中,操作400可以包括一个或多个MLM。操作400可以使用一个或多个激光雷达图像210和一个或多个相机图像412。激光雷达图像410和相机图像412可以描绘AV的驾驶环境的相同区域,例如,被AV的前置相机的视野(FoV)覆盖,尽管任何其他FoV(例如,侧面相机的FoV)可以以类似的方式处理。
激光雷达图像210(或一些其他深度信息)可以包括反射的激光雷达信号I(x1,x2,x3)的三维(3D)强度或3D强度I(x1,x2)的二维(2D)投影。2D强度可以表示地面以上特定高度x3=h的3D强度的特定切片,例如I(x1,x2,h),或者相对于垂直坐标的最大值I(x1,x2)={I(x1,x2,x3):x3},或者在某个高度间隔内(x3∈(a,b))的I(x1,x2,x3)的平均值,或者某个其他合适的值。在一些实施方式中,3D维多普勒强度或速率图V(x1,x2,x3)或其2D投影(例如,如上所述相对于强度I确定的)可以是激光雷达图像210的一部分。强度(和/或速率)图可以以任何合适的方式像素化。应当理解,坐标(x1,x2,x3)或(x1,x2)不限于笛卡尔坐标,并且可以包括任何合适的坐标系统,例如,球坐标系统、柱坐标系统、椭圆坐标系统、极坐标系统等等。在一些实施方式中,坐标系可以是非正交坐标系,例如仿射坐标系。在一些实施方式中,深度信息还可以包括使用一个或多个雷达114获得的雷达数据、使用声纳116获得的超声波数据、立体图像数据(例如由位于多个有利点位的相机118获得的数据),或者它们的任意组合。
相机图像412可为任何合适的数字格式(JPEG、TIFF、GIG、BMP、CGM、SVG等)。在一些实施方式中,相机图像412中描绘的位置可以参考激光雷达图像410中描绘的位置。例如,可以基于激光雷达发射器的已知方向和相机的光轴来获得激光雷达的FoV和相机的FoV的对应关系,这可以在扫描驾驶环境的过程中随时间而变化。在一些实施方式中,激光雷达的FoV和相机的FoV的对应关系可以考虑激光雷达传感器和相机物镜之间的视差,补偿相机的滚动快门,校正各种激光雷达返回的检测之间的时间差,等等。
相机图像412可包括多个像素。像素的数量取决于图像的分辨率。每个像素可以由一个或多个强度值来表征。黑白像素可以由一个强度值来表征,例如,表示像素的亮度,值1对应于白色像素,值0对应于黑色像素(反之亦然)。强度值可以采用0和1之间的连续(或离散)值(或在任何其他选择的界限之间,例如0和255)。类似地,彩色像素可以由多于一个强度值表示,例如三个强度值(例如,如果使用RGB颜色编码方案)或四个强度值(例如,如果使用CMYK颜色编码方案)。相机图像412可以被预处理,例如,缩小(将多个像素强度值组合成单个像素值)、上采样、滤波、去噪等。
图像裁剪模块420可识别激光雷达图像410和相机图像412中与候选标志相关联的一个或多个标志位置。更具体地,图像裁剪模块420可以包括对象识别MLM(图4A中未示出),其被训练以识别包括感兴趣的标志(例如交通标志)的区域。在一些实施方式中,对象识别MLM可以对包括激光雷达图像410和相机图像412的组合图像进行操作。在一些实施方式中,激光雷达图像410的像素和相机图像412的像素可以用作对象识别MLM的单独输入。在一些实施方式中,对象识别MLM可以仅在相机图像412中(或仅在激光雷达图像410中)识别感兴趣的补片(patch)(描绘标志的)。随后,图像裁剪模块420可以使用几何对应关系来识别激光雷达图像410(或相机图像412)中的各个补片,并将这两组识别出的补片彼此相关联。
描绘各种候选标志422的关联补片对可输入到MLM-I 320,MLM-I 320执行候选标志的识别并确定每个候选标志的标志类型430。在一些实施方式中,MLM-I 320可以是或包括人工神经元的神经网络。神经元可以与可学习的权重和偏差相关联。神经元可以分层排列。一些层可以是隐藏层。MLM-I320可以包括多个隐藏神经元层,并且可以被配置为执行能够识别候选标志的计算。在一些实施方式中,MLM-I 320可以包括多个卷积层,以提取候选标志422的图像的局部和全局上下文。卷积层可以使用任何合适的参数,包括核/掩码大小、核/掩码权重、滑动步长等。卷积层可以与填充层交替,并且可以跟随着一个或多个池化层,例如最大池化层、平均池化层等。MLM-I 320的一些层可以是完全连接的层。在一些实施方式中,MLM-I 320可以是完全卷积的或完全连接的。可以为每个候选标志422输出标志类型430。可以顺序地或并行地处理多个候选标志422,例如,使用MLM-I 320的多个对应物,或使用利用较少数量(例如,一个或两个)MLM-I 320实例的流水线处理。
标志类型430可以包括相应候选标志422的类型的详细标识,例如“限速30英里/小时”、“学校区域”、“禁止停车”、“右车道必须右转”、“左车道前方关闭”等。在一些实施方式中,MLM-I 320可以使用多个阶段来执行识别,每个阶段对应于可被单独训练的单独的MLM。例如,MLM-I 320的第一子系统可以识别候选标志422所属的高级类别,例如“速度限制”、“施工区域标志”、“方向标志”、“限制标志”、“信息标志”等等。每一类别中的标志可以比其他类别的标志彼此更接近外观(例如,在形式、颜色方案、涂在其上的标志类型方面)。例如,建筑区域标志可以具有橙色,速度限制标志可以是带有整个类别的类似标志所共有的单词的白色矩形(例如,“速度限制”),高速公路信息标志可以具有绿色背景,等等。MLM-I 320的第二子系统(或MLM-I 320的多个子系统的组,每个子系统都被针对属于特定类别的标志训练)然后可以执行标志类型的更准确(低级)的识别,例如,区分“30英里/小时限速”标志和“25英里/小时限速”标志,或“靠右行驶”标志和“靠左行驶”标志,等等。
MLM-I 320(或其任何子系统)的输入可以是激光雷达数据和相机图像数据的组合。更具体地,与特定候选标志422相关联的激光雷达补片和相机补片可以以任何其他合适的方式相互映射、重新缩放、去噪、过滤、像素化、上采样和/或预处理。在一些实施方式中,由激光雷达测量的到候选标志422的距离可以用于将激光雷达补片映射到相机补片。候选标志422可以由W×H大小的补片表示,其中W是补片的宽度,H是其高度(W和H都是以例如像素来测量的)。在一些实施方式中,即使到候选标志422的距离在不同的驾驶情况下变化,补片的大小也可以被重新调整到固定的尺寸W×H。
对MLM-I 320(或其任何子系统)的输入可以包括:补片内每个像素位置(x,y)的适当像素化的激光雷达强度IL(x,y);以及相机强度,例如黑白强度IBW(x,y);或者多个颜色强度,例如红色强度IR(x,y)、绿色强度IG(x,y)、以及蓝色强度IB(x,y)。在一些实施方式中,强度向量,例如或可以被形成并输入到MLM-I 320(或其第一子系统)中。MLM-I 320可以包括将核(掩码)应用于输入向量的多个卷积层。一些核可以应用于不同像素的相同类型的分量(例如,在由核的大小定义的像素的邻域内),例如来计算涉及IL(x,y)和IL(x′,y′)的卷积。一些核可以应用于相同像素的不同类型的分量,例如来计算涉及IL(x,y)和IBW(x,y)的卷积。一些核可以应用于不同像素的不同类型的分量,例如来计算涉及IL(x′,y′)和IG(x′,y′)的卷积。
在一些实施方式中,除了每个候选标志422的图像补片外,图像裁剪模块420可生成镜像图像补片,其中候选标志422的激光雷达图像(以及类似的相机图像)是其自身的镜面反射。所产生的镜面反射可以是水平方向上的反射(例如,便于检测来自车窗或建筑物墙壁的图像反射)。在一些实施方式中,镜面反射可以是垂直方向上的反射(例如,便于检测来自水体的图像反射)。MLM-I 320可以类似于处理原始补片的方式来处理镜像补片。结果,在MLM-I 320没有将候选标志422识别为有效标志类型的标志的一些情况下,MLM-I 320可以将候选标志识别为有效标志类型的镜像。
除了每个输入候选标志422的标志类型430之外,MLM-I 320的输出可包括标志类型430的置信度水平。置信度水平也可以是百分比值(例如,80%置信度)或其他范围内的值(例如,1-5或任何其他范围)。例如,可以通过将附加噪声引入到用作MLM-I 320的输入的激光雷达和相机强度中,并测量推断出的标志类型430的鲁棒性,来确定置信度水平,其中对添加的噪声保持更稳定的推断被分配更高的置信度水平,而改变更大程度的推断被分配更低的置信度水平。
可使用多种训练图像来训练MLM-I 320(或其任何子系统),所述多种训练图像可包括以下各项中的一些或全部:i)高质量的标志参考图像;ii)在多种大气条件下(例如,大晴天、阴天、雨天或雾天条件等)的实际驾驶或测试任务期间拍摄的真实激光雷达和相机图像;iii)在实验室或现场测试期间拍摄的图像标志反射,等等。可以使用一个或多个训练集来执行MLM-I 320(或其任何子系统)的训练。每个训练集可以包括驾驶环境的区域的相机图像和对应于该区域的激光雷达数据。在训练期间,通过将误差反向传播通过MLM-I 320的神经元层,不正确确定的标志类型430可以用于调整MLM-I 320(或其任何子系统)的权重和偏差。更具体地,可以修改MLM-I 320的权重和偏差,直到特定训练集中的给定候选标志422被正确识别。可以对同一训练集的其他候选标志422重复该过程。随后,可以选择新的训练集,并且可以利用再次改变的神经网络参数对新的训练集的各种候选标志422进行分类,直到成功识别出新的训练集中的候选标志422的至少一个目标部分。该训练过程可以持续到达到训练集中标志类型430的可靠识别的目标成功率(例如,90%、95%等)为止。在一些实施方式中,可以基于MLM-I 320之前没有看到的一组测试图像来确定目标成功率。
由MLM-I 320输出的标志类型430可由标志可行性过滤器440处理,其可确定每个识别的候选标志422的类别。在一些实施方式中,标志可行性过滤器440可以包括处理系统已知的所有标志类型的查找表。在一些实施方式中,如上所述,考虑到候选标志422的标志类型及其镜像,标志可行性过滤器440可以执行分类。结果,标志可行性过滤器440可以将观察到的标志分为多个类别。一类,例如A类,可以包括伪图像的标志。在确定候选标志422是伪图像时,候选标志422的处理可以直接进行到标志有效性预测块470,其输出候选标志422是真的确定。
另一类,例如B类,可包括其镜像为图像伪标志的标志。相应地,被分类为B类标志的候选标志422预期是位于驾驶环境中其他地方的真标志的反射。因此,在确定候选标志422是图像伪标志的镜像时,处理可以直接进行到标志有效性预测块470,其输出候选标志422是图像标志的确定。
第三类,例如C类,可包括图像真实的标志。因为图像真标志是对称的或者具有有效的镜像对应物标志,所以被分类为C类标志的候选标志422不能仅基于标志的语义信息立即被识别为真标志或图像标志。因此,这种候选标志被转发给空间验证450。此外,已经被分类为A类标志或B类标志,但是其标志类型430已经被识别为具有低于特定阈值置信度水平的置信度水平的标志,也可以被转发到空间验证450。
在一些实施中,空间验证450可包括至少一些以下验证操作:遮挡验证452、几何验证454和映射验证456。在一些实施方式中,不执行一些验证操作(例如,映射验证456)。图5示意性地图示了驾驶环境的区域500,其包括使用根据本公开的一些实施方式操作的技术识别和验证的标志。图5描绘了支持激光雷达504(例如,激光雷达112)和相机506(例如,相机118之一)的AV 502的一部分。还描绘了“直行或右转”标志508、“靠右行驶”标志510和“停止”标志512。激光雷达504和相机506可以检测标志508、510和512,并且可以进一步检测“靠右”标志510的反射图像,该反射图像由来自公共汽车516的窗户的光反射产生并且表现为“靠左”候选标志514。候选标志514可以位于公共汽车516的后面。MLM-I 320和标志可行性过滤器440的处理可以将“停车”标志512分类(例如,具有高于阈值的置信度)为A类图像伪标志,并且因此将“停车”标志512识别为真标志。另一方面,MLM-I 320和标志可行性过滤器440可以将候选标志508和510以及候选标志514分类为C类图像真标志,并且转发候选标志508、510和514用于空间验证450。
在遮挡验证452期间,可分析每个候选标志,并可评估每个候选标志被其他对象遮挡的可能性。例如,可以检测到公共汽车516遮挡了候选标志510,但没有遮挡候选标志514。遮挡验证452可以使用3D激光雷达数据来执行,该3D激光雷达数据包括到各个激光雷达返回点的距离。另外,AV的感知系统130可以识别属于相同的对象并识别对象的大小的激光雷达返回点的聚类(例如,使用各种聚类技术,包括迭代最近点(ICP)算法、聚类的统计卡尔曼跟踪等)。在一些实施方式中,感知系统130可以识别包围公共汽车516的3D边界框518。遮挡验证452可以包括确定从相机506到候选标志(例如,候选标志514)的视线与边界框518相交。这可以指示候选标志514可能被公共汽车516遮挡,并且有利于将候选标志514验证为图像标志。
在一些实施方式中,遮挡验证452可以包括向候选标志分配遮挡分数。在一些实施方式中,遮挡分数可以是二进制的,例如,值0表示没有遮挡(光线与边界框没有相交),值1表示遮挡(光线与边界框相交)。在一些实施方式中,遮挡分数可以取两个以上的值,甚至可以是连续的分数。例如,遮挡值对于那些具有到相机506(和激光雷达504)的视线且光线穿过边界框的中间的候选标志可以较高,而对于那些具有穿过边界框的外部区域的视线的候选标志可以较低。这种遮挡得分的可变尺度可以有效地解决错误遮挡的情况。更具体地说,激光雷达确定的边界框可能不精确。在某些情况下,边界框可能会高估所包围对象的大小。例如,对于检测速度,感知系统130可以识别其高度不是对象实际高度的精确估计的边界框;例如,因为边界框518的高度可以远大于公共汽车516的高度。此外,边界框可能不知道对象的实际轮廓。例如,如图5中示意性描绘的,感知系统130可以识别汽车520位于AV和标志508之间,并且可以进一步计算包围汽车520的边界框522。连接相机506和标志508的视线可以与边界框522相交,但是可以经过发动机舱上方,在那里汽车520的高度小于边界框522的高度。结果,基于边界框522的位置和尺寸,可以预测伪遮挡。为了减少这种情况的可能性,汽车520对候选标志508的遮挡得分可以低于候选标志514的遮挡得分。
因为边界框的遮挡可能具有有限的预测能力,所以遮挡分数即使很高,也可以被最终分类器460考虑(如下面更详细描述的),但是在将候选标志识别为真标志或图像反射时可能不是完全决定性的。可以执行附加处理作为几何验证454的一部分。几何验证454可以确定在驾驶环境中是否存在候选标志422的镜像对应物。此外,几何验证454可以评估在驾驶环境中是否存在合适的对象,该对象可以产生镜像对应物的反射,该镜像对应物将作为候选标志422出现。
图6示意性地示出了根据本公开的一些实施方式的示例几何构造600,其可以用作候选标志的几何验证的一部分。图6描绘了其上安装有感测系统604(用字符O描绘)的AV602,该感测系统具有激光雷达接收器和一个或多个相机。候选标志A 606可以被感测系统604检测到,并且被MLM-I 320和标志可行性过滤器440识别为图像真标志。几何验证454可以包括在由MLM-I320识别的其他候选标志中,识别位于别处并且属于以下类别之一的镜像候选标志:i)与候选标志A 606相同类型的标志,如果候选标志A 606是镜像对称的;或者ii)候选标志A 606的镜像,如果候选标志A 606是非对称的。例如,候选标志B 608可以被识别为候选标志A 606的可能镜像对应物。(如果有多个可能的对应物B1,B2等被识别,可以分别对多对候选标志(A,B1),(A,B2)等执行下面描述的操作。)
几何验证454可以包括识别其表面612可以引起标志反射的可能对象610(例如,车辆、建筑物、公共汽车站或一些其他对象)。例如,表面612可以在位置C处与光线OB(如图所示)或OA相交,使得AC等于BC(或者在预定公差内近似相等),并且AC和反射表面612之间的角度α与BC和反射表面612之间的角度相同(或者在预定角度公差内近似相同)。已经识别了一对候选图像A 606和B 608,以及具有可能的反射表面612的对象610,几何验证454可以包括将候选标志A 606识别为真标志,将候选标志B 608识别为图像标志。更具体地,沿着不与反射表面(例如,反射表面612)相交的视线(例如,线OA)可见的候选标志可以被识别为真标志,并且沿着与反射表面相交的视线(例如,线OB)可见的候选标志可以被识别为图像标志。
在一些实施方式中,一对候选标志不需要相对于表面612精确对称地定位。更具体地说,反射表面的方向可能不是确切知道的。此外,反射表面可以具有一定程度的曲率。结果,即使候选标志之一在反射表面的平面中反射时处于预定大小的特定区域614内,一对候选标志仍可以被识别为彼此的镜像。例如,如果相对于表面612的反射变换将候选标志A606的位置映射到与候选标志B 608的观察位置不同但在容差区域614内的位置B’616,则两个候选标志A 606和B 608仍然可以被确定为彼此的镜像。
在一些实施方式中,几何验证454可以包括向候选标志分配几何分数。在一些实施方式中,几何分数可以是二进制的;例如,值0可以指示候选标志的镜像对应物存在,具有合适反射表面的对象已经被识别,并且该对象不在感测系统(例如,相机和/或激光雷达)和候选标志之间的视线内。相反,值1可以指示存在候选标志的镜像对应物,具有合适反射表面的对象已经被识别,并且该对象在感测系统和候选标志之间的视线内。相应地,值0有利于发现真标志,而值1有利于发现图像标志。在一些实施方式中,几何分数可以取两个以上的值,甚至可以是连续的分数。例如,如果反射表面612的位置和/或方向已经以一定程度的不确定性确定,则几何分数可以从值1减小,例如与不确定性程度成比例。类似地,几何分数可以成比例地减少到候选标志及其镜像对应物的相互位置相对于例如在位置B’616和候选标志B 608之间的距离上反射表面偏离彼此的精确几何图像的程度。
返回参考图4A,在一些实施方式中,映射验证456可以包括将候选标志422的位置和标志类型430与地图信息(例如,图1的地图信息124)中列出的标志进行比较。地图信息可以包括例如通过GPS坐标识别的、AV驾驶环境内已知(例如,预先绘制的)标志的位置和标志类型。相应地,映射验证456可以包括确定每个候选标志的映射分数。例如,如果与所确定的标志类型430相同的标志类型的标志被列在地图信息中的相同位置,则映射得分可以被赋值0。当在地图信息中没有列出相同标志类型的标志时,映射分数可以被赋予值1。在一些实施方式中,映射得分可以是随着候选标志422的观察位置和相同标志类型的标志的列出映射位置之间的距离而增加的连续值,使得标志位置的较高差异有利于找到标志图像,而较低差异有利于找到真标志。
遮挡得分SO、几何得分SG和/或映射得分SM可以被提供给最终分类器460,最终分类器460可以确定最终得分SF,该最终得分SF可以是各个得分的任何合适的函数(线性或非线性),SF=F(S0,SG,SM)。在一些示例实现中,最终分数可以是各个分数的加权组合,
SF=wO·SO+wG·SG+wM·SM,
权重wO、wG和wM表示每个分数的相对重要性。具体的权重值可以基于经验测试来确定。对于不同的环境条件,包括不同的照明、降水、能见度等,权重可以不同。可以基于最终得分SF为每个候选标志确定标志有效性预测470。例如,如果最终得分SF满足或超过某个(例如,经验确定的)阈值得分ST,SF≥ST,则候选标志被识别为图像标志(标志反射)。如果最终分数小于阈值分数,SF<ST,则候选标志被识别为真标志。应该理解的是,最终分数对各个分数的线性依赖仅仅是为了说明,也可以使用确定最终分数的许多其他方式。此外,单个分数S0、SG、SM不必在相同的值区间(例如[0,1])内被归一化,并且可以在单个选择的经验界限内变化。
即使当每个单独的验证分数可能不精确时,对单独的分数进行加权也能够实现高效和准确的标志识别和验证。例如,再次参考图6,如果在几何验证454期间没有识别出候选标志的镜像对应物,则候选标志的几何分数可以设置为0,有利于找到真标志。但是在一些情况下,另一个对象618(其轮廓在图6中用虚线椭圆描绘)可能阻挡了从AV 602到真标志(例如,候选标志A606)的视线OA。在真标志对AV 602不可见的情况下,只有图像标志(例如,候选标志B 608)可以被AV 602的感测系统检测到,导致低(或零)几何分数。在这种情况下,候选标志B 608的最终得分SF仍然可以大大高于0,因为遮挡验证452能够识别出对象610正在遮挡候选标志B 608。映射验证456可以通过发现候选标志608不靠近相同类型的已知标志来进一步有助于增加最终得分SF。
图4B是示出根据本公开的一些实施方式的示例性标志识别和验证操作401的示意图,该操作使用机器学习模型来进行标志识别和标志验证二者。在图4B所示的实施方式中,在一对标志(例如,候选标志及其镜像对应物)被识别之后,描绘该对标志的两个标志的图像的一部分(例如,激光雷达图像410和相机图像412)可以被输入到MLM-V 330中。例如,图5中描绘的驾驶环境的区域500的一部分的图像可以被输入到MLM-V 330中,区域500的该部分包括候选标志510和514以及公共汽车516。MLM-V 330可以使用各种标志的图像以及它们源自不同对象(例如,车辆、建筑物、公共汽车站等)的反射来训练。MLM-V 330可以输出表示每个候选标志是真标志的可能性的验证分数,例如,真实候选标志510可以接收验证分数0,而反射图像候选标志514可以接收验证分数1。在两个候选标志都被确定为真实的那些情况下,两个候选标志都可以接收验证分数0。在一些实施方式中,MLM-V 330可以用作向最终分类器460提供分数的附加通道,补充由空间验证450产生的各种分数,如上面详细描述的。在一些实施方式中,不执行空间验证450,并且MLM-V330确定最终分数。
图7和图8示出了根据本发明的一些实施方式的示例方法700和800,所述示例方法700和800能够将检测到的标志有效识别和验证为真标志或图像标志。具有一个或多个处理单元(CPU)、一个或多个图形处理单元(GPU)以及通信地耦合到CPU和/或GPU的存储器设备的处理设备可以执行方法700和800和/或它们各自的功能、例程、子例程或操作中的每一个。方法700和800可以针对自动驾驶车辆的系统和组件,例如图1的自动驾驶车辆100。执行方法700和800的处理设备可以执行由图1的感知系统130的各种组件(例如,SIM 132和SVM134)发出的指令。方法700和800可用于提高自动车辆控制系统140的性能。在某些实施方式中,单个处理线程可以执行方法700和800。或者,两个或更多个处理线程可以执行方法700和800,每个线程执行一个或多个单独的功能、例程、子例程或方法的操作。在说明性示例中,实现方法700和800的处理线程可以被同步(例如,使用信号量、临界区和/或其他线程同步机制)。或者,实现方法700和800的处理线程可以彼此异步地执行。与图7和/或图8所示的顺序相比,方法700和800的各种操作可以以不同的顺序执行。方法700和800的一些操作可以与其他操作同时执行。有些操作是可选的。
图7示出了根据本公开的一些实施方式,在车辆驾驶环境中识别和验证真标志的示例方法700。在一些实施方式中,车辆可以是自动车辆(AV)。在一些实施方式中,车辆可以是配备有驾驶员辅助系统(例如,2级或3级驾驶员辅助系统)的驾驶员操作的车辆,该驾驶员辅助系统为特定的车辆系统提供有限的辅助(例如,转向、制动、加速等的系统)或在有限的驾驶条件下(例如,高速公路驾驶)。在框710,方法700可以包括使用车辆的感测系统(例如,图1中的感测系统110)来收集例如数字相机图像的相机数据以及例如3D激光雷达图像的激光雷达数据,其描绘了车辆环境的区域。感测系统可以产生包括该区域的相机图像和该区域的深度信息的组合图像。组合图像应当被理解为相机数据(例如,相机图像的每个基色的强度)与深度信息的任何关联,该深度信息例如使用空间坐标、像素坐标等来引用空间中的相同位置。在一些实施方式中,深度信息可以包括激光雷达数据、雷达数据、立体图像数据、超声波数据等、或它们的任意组合。组合图像中的相机数据和深度信息可以保持它们相应的独特性,并且不必混合在一起(例如,通过将相机和激光雷达强度组合成单个组合强度)。
在框720,方法700可包括使用车辆的感知系统(例如,图1的感知系统120),将组合图像中的第一标志分类为图像真标志。在一些实施方式中,如框720的标注部分中的框722所示,将第一标志分类为图像真标志可以包括将经训练的MLM应用于组合图像或组合图像的至少一部分。更具体地,感知系统可以使用对象识别软件(其可以包括附加的MLM)来找出组合图像中的标志描绘。标志可以是任何交通标志、信息标志,包括建筑物和商店名称、广告牌等。可以使用组合图像的相机图像分量、或组合图像的激光雷达图像分量、或其组合来执行找到组合图像中的标志描绘。在初始找到标志的描绘之后,感知系统可以从被成像的环境区域的较大组合图像中裁剪被找到的标志(候选标志)的描绘,然后使用MLM(例如,MLM-I 320)处理被裁剪的部分。MLM可以确定每个候选标志的类型(例如,“禁止停车”标志、“学校区域”标志、“让出”标志等)。)以便能够在多个类别中对每个候选标志进行分类。
在一些实施方式中,如果标志是这样的标志:标志的镜像为有效(例如,交通法规认可的)标志,例如,同一标志(在对称标志的情况下)或另一有效标志(例如,左箭头标志为有效标志,其为右箭头标志的镜像),则感知系统可将标志分类为图像真标志。同样,如果一个标志是有效标志,但其镜像是无效标志(例如,“限速”标志),则该标志可被分类为图像伪标志。相反,标志可以被分类为其镜像是图像伪标志的标志,例如,无效但其镜像是有效标志的标志。
在框730处,感知系统可对以下称为第一标志的特定候选标志进行空间验证。应当理解,“第一”、“第二”等仅作为标识符,并不暗示着标志检测的任何空间或时间顺序。第一标志的空间验证可以包括第一标志和车辆环境区域中的一个或多个对象之间的空间关系的评估(例如,如图6所示)。如框730的插图标注部分中的各个框所示,执行第一标志的空间验证可以包括多个操作。并非所有操作都需要在签名验证的每个实例中执行,只有一些操作可以在特定实例中执行。更具体地,在框732,感知系统可以识别位于一位置的容差区域内的(第一标志的)镜像对应物的不存在,该位置是第一标志相对于反射表面的位置的镜像。例如,如果感知系统识别出候选标志A 605,并且进一步识别出候选标志A 605的镜像对应物不在作为候选标志A 605相对于反射表面612的位置的镜像的位置周围的容差区域614内,则这一发现有利于识别出候选标志A 605是真标志。
在框734中,感知系统可从车辆的感测系统识别出不存在遮挡第一标志的位置的对象。例如,如果感知系统识别出从感测系统604到候选标志A 605的视线未被其他对象阻挡,这可以有利于发现候选标志A 605是真标志。作为另一个例子,在框736,感知系统可以识别第一标志的位置与车辆环境区域的地图信息一致。例如,感知系统可以确定候选标志A606的类型与映射信息中列出的标志的类型相同,并且位于候选标志A 606的位置的某个邻域内。这有利于发现候选标志A605是真标志。在一些实施方式中,框730的操作可以包括使用MLM-V 330,如关于图4B所描述的。
在框740处,方法700可基于作为框730的一部分执行的空间验证,继续将第一标志识别为真标志。在一些实施方式中,框740可以涉及最终分类器460的操作,包括计算和加权代表所执行的验证过程的各种分数,如关于图4A更详细描述的。
图8示出了根据本发明的一些实施方式的在车辆驾驶环境中识别图像标志的示例方法800。方法800可以包括,在框810,使用车辆的感知系统来分类标志(这里称为第二标志)。在一些情况下,如框820所示,感知系统可以确定第二标志是图像伪标志。感知系统然后可以将第二标志识别(框822)为真标志。
在一些情况下,如框824所示,感知系统可将第二标志分类为其镜像为图像伪标志的标志,这表示第二标志为不具有有效镜像对应物的有效标志的镜像。结果,感知系统可以将第二标志识别(框826)为图像标志。
在其他情况下,如框828所示,感知系统可确定组合图像中的第二标志为图像真标志。在这种情况下,感知系统可以启动第二标志的附加验证,以确定第二标志是真标志还是图像标志。例如,在框830,感知系统可以执行第一标志和第二标志的联合空间验证。联合空间验证可以包括对第一标志(例如,图6中的候选标志A606)、第二标志(例如,候选标志B608)和位于第一标志和第二标志之间的反射表面(例如,反射表面612)的空间关系的评估。更具体地,联合空间验证可以包括至少一些以下操作。在框832,联合空间验证可以包括使用感知系统来识别第二标志是第一标志的镜像(例如,候选标志B 608是“只准左转”标志,候选标志A是“只准右转”标志)。在框834,感知系统可以确定第二标志位于相对于反射表面是第一标志的位置的镜像的位置的公差区域内。例如,第二候选标志可以位于围绕作为候选标志A606相对于反射表面612的位置的镜像的位置(例如,所描绘的候选标志B 608的位置)绘制的容差区域614内的位置B’616处。基于作为联合空间验证的一部分执行的一个或多个框828-834的操作,感知系统可以识别(在框826)第二标志是图像标志。在一些实施方式中,联合空间验证的一个或所有操作在识别第二(和/或第一)标志是真标志还是标志反射时可能不是决定性的。相反,可以为相应操作的输出分配验证分数,并且基于所有验证分数的总和来执行最终确定,如关于图4A更详细描述的。
在识别出第一标志为真标志且第二标志为图像标志后,处理系统可使车辆控制系统忽略第二标志,并根据第一标志的位置和语义绘制车辆的行驶路径。使用方法700和800或类似于方法700和800的方法,可以例如顺序地(以流水线方式)或并行地处理任何数量的附加标志(或标志对)。
图9描绘了根据本发明的一些实施方式的能够在自动驾驶环境中有效识别和验证真标志和图像标志的示例计算机设备900的框图。示例计算机设备900可以连接到LAN、内联网、外联网和/或因特网中的其他计算机设备。计算机设备900可以在客户端-服务器网络环境中以服务器的身份操作。计算机设备900可以是个人计算机(PC)、机顶盒(STB)、服务器、网络路由器、交换机或网桥,或者能够执行指定该设备要采取的动作的一组指令(顺序或其他)的任何设备。此外,虽然仅示出了单个示例计算机设备,但是术语“计算机”也应当被理解为包括单独或联合执行一组(或多组)指令以执行这里讨论的任何一个或多个方法的计算机的任何集合。
示例计算机设备900可包括处理设备902(也称为处理器或CPU)、主存储器904(例如,只读存储器(ROM)、闪存、如同步DRAM(SDRAM)的动态随机存取存储器(DRAM)等)、静态存储器906(例如,闪存、静态随机存取存储器(SRAM)等)、以及辅助存储器(例如,数据存储设备918),它们可以经由总线930相互通信。
处理设备902(可包括处理逻辑903)代表一个或多个通用处理设备,如微处理器、中央处理单元等。更具体地,处理设备902可以是复杂指令集计算(CISC)微处理器、精简指令集计算(RISC)微处理器、超长指令字(VLIW)微处理器、实现其他指令集的处理器或者实现指令集组合的处理器。处理设备902也可以是一个或多个专用处理设备,例如专用集成电路(ASIC)、现场可编程门阵列(FPGA)、数字信号处理器(DSP)、网络处理器等。根据本公开的一个或多个方面,处理设备902可以被配置为执行指令,该指令执行在自动车辆的驾驶环境中识别和验证真标志和图像标志的方法700和800。
示例计算机设备900可进一步包括网络接口设备908,其可通信地耦合至网络920。示例计算机设备900还可以包括视频显示器910(例如,液晶显示器(LCD)、触摸屏或阴极射线管(CRT))、字母数字输入设备912(例如,键盘)、光标控制设备914(例如,鼠标)、以及声音信号生成设备916(例如,扬声器)。
数据存储设备918可包括计算机可读存储介质(或,更具体地,非暂时性计算机可读存储介质)928,其上存储有一组或多组可执行指令922。根据本公开的一个或多个方面,可执行指令922可以包括执行在自动车辆的驾驶环境中识别和验证真标志和图像标志的方法700和800的可执行指令。
可执行指令922在由示例计算机设备900、主存储器904和处理设备902执行其期间也可完全或至少部分驻留在也构成计算机可读存储介质的主存储器904和/或处理设备902内。可执行指令922还可以通过网络接口设备908在网络上发送或接收。
虽然计算机可读存储介质928在图9中显示为单个介质,但术语“计算机可读存储介质”应包括存储一组或多组操作指令的单个介质或多个介质(例如,集中式或分布式数据库,和/或相关的高速缓存和服务器)。术语“计算机可读存储介质”还应被理解为包括能够存储或编码由机器执行的指令集的任何介质,所述指令集使得机器执行这里描述的任何一种或多种方法。因此,术语“计算机可读存储介质”应包括但不限于固态存储器以及光学和磁性介质。
上述详细说明的某些部分以计算机存储器内数据位操作的算法和符号表示形式呈现。这些算法描述和表示是数据处理领域的技术人员用来最有效地向本领域的其他技术人员传达他们工作的实质的手段。算法在这里通常被认为是导致期望结果的自洽的步骤序列。这些步骤需要对物理量进行物理操作。通常,尽管不是必须的,这些量采取能够被存储、传输、组合、比较和以其他方式操纵的电或磁信号的形式。主要出于通用的原因,将这些信号称为比特、值、元素、符号、字符、术语、数字等有时被证明是方便的。
然而,应记住,所有这些和类似术语均与适当的物理量相关联,且仅是应用于这些量的方便标签。除非特别声明,否则从下面的讨论中显而易见的是这样做是有利的:在整个描述中,使用诸如“识别”、“确定”、“存储”、“调整”、“导致”、“返回”、“比较”、“创建”、“停止”、“加载”、“复制”、“抛出”、“替换”、“执行”等术语的讨论指的是计算机系统或类似的电子计算设备的动作和过程,其将表示为计算机系统的寄存器和存储器内的物理(电子)量的数据操纵和转换成类似地表示为计算机系统的存储器或寄存器或其他这种信息存储、传输或显示设备内的物理量的其他数据。
本发明的示例还涉及用于执行本文所述方法的装置。该装置可以为所需的目的而专门构造,或者它可以是由存储在计算机系统中的计算机程序选择性编程的通用计算机系统。这种计算机程序可以存储在计算机可读存储介质中,例如但不限于任何类型的盘,包括光盘、CD-ROM和磁光盘、只读存储器(ROM)、随机存取存储器(RAM)、EPROM、EEPROM、磁盘存储介质、光存储介质、闪存设备、其他类型的机器可访问存储介质、或适于存储电子指令的任何类型的介质,每个介质都耦合到计算机系统总线。
本文介绍的方法和显示器并非固有地与任何特定的计算机或其他装置相关。根据这里的教导,各种通用系统可以与程序一起使用,或者可以证明构造更专用的装置来执行所需的方法步骤是方便的。各种这些系统所需的结构将在下面的描述中阐述。此外,本公开的范围不限于任何特定的编程语言。应当理解,可以使用多种编程语言来实现本公开的教导。
应理解,上述说明旨在说明,而非限制。本领域技术人员在阅读和理解以上描述后,许多其他实施示例将是显而易见的。尽管本公开描述了具体的示例,但是将认识到,本公开的系统和方法不限于这里描述的示例,而是可以在所附权利要求的范围内进行修改来实施。因此,说明书和附图应被认为是说明性的,而不是限制性的。因此,本公开的范围应当参照所附权利要求以及这些权利要求的等同物的全部范围来确定。
Claims (20)
1.一种系统,包括:
车辆的感测系统,该感测系统被配置成:
获得包括车辆环境的区域的相机图像和车辆环境的区域的深度信息的组合图像,其中深度信息包括激光雷达数据、雷达数据、立体图像数据或超声波数据中的至少一个;和
车辆的感知系统,该感知系统被配置成:
将组合图像中的第一标志分类为图像真标志;
执行第一标志的空间验证,该空间验证包括评估第一标志和车辆环境的区域中的一个或多个对象的空间关系;和
基于所执行的空间验证,将第一标志识别为真标志。
2.根据权利要求1所述的系统,其中,为了将所述第一标志分类为图像真标志,所述车辆的感知系统将训练的机器学习模型应用于所述组合图像的至少一部分。
3.根据权利要求1所述的系统,其中所述感知系统进一步被配置为:
将组合图像中的第二标志分类为图像伪标志;和
将第二标志识别为真标志。
4.根据权利要求3所述的系统,其中,为了将所述第一标志分类为图像真标志,所述感知系统将所述第一标志识别为其镜像是有效标志的标志,并且其中,为了将所述第二标志分类为图像伪标志,所述感知系统将所述第二标志识别为其镜像是无效标志的标志。
5.根据权利要求1所述的系统,其中所述感知系统进一步被配置为:
将组合图像中的第二标志分类为其镜像是图像伪标志的标志;和
将第二标志标识为图像标志。
6.根据权利要求1所述的系统,其中所述感知系统进一步被配置为:
将组合图像中的第二标志分类为图像真标志;
其中,为了执行第一标志的空间验证,感知系统要:
执行第一标志和第二标志的联合空间验证,该联合空间验证包括评估第一标志、第二标志和位于第一标志和第二标志之间的反射表面的空间关系;和
基于所执行的联合空间验证,将第二标志识别为图像标志。
7.根据权利要求6所述的系统,其中,为了执行所述联合空间验证,所述感知系统还被配置为:
识别第二标志是第一标志的镜像;和
确定第二标志位于作为第一标志相对于反射表面的位置的镜像的位置的公差区域内。
8.根据权利要求1所述的系统,其中,为了执行所述第一标志的空间验证,所述感知系统还被配置为:
识别不存在位于作为第一标志相对于反射表面的位置的镜像的位置的公差区域内的第一标志的对应物标志。
9.根据权利要求1所述的系统,其中,为了执行所述第一标志的空间验证,所述感知系统还被配置为:
从车辆的感测系统识别不存在遮挡第一标志的位置的对象。
10.根据权利要求1所述的系统,其中,为了执行所述第一标志的空间验证,所述感知系统还被配置为:
识别所述第一标志的位置与所述车辆环境的区域的地图信息一致。
11.一种系统,包括:
车辆的感测系统,该感测系统被配置成:
获得包括车辆的驾驶环境的第一部分的激光雷达数据和相机数据的第一数据,该第一部分描绘第一候选标志;和
获得包括驾驶环境的第二部分的激光雷达数据和相机数据的第二数据,该第二部分描绘第二候选标志;和
感知系统,被配置为:
使用机器学习模型(MLM)处理第一数据,以确定第一候选标志的第一标志类型;
使用MLM处理第二数据,以确定第二候选标志的第二标志类型;
基于第一标志类型和第二标志类型,确定第一候选标志是第二候选标志的镜像;
识别位于第二候选标志和车辆的感测系统之间的反射表面;
识别第二候选标志位于相对于反射表面是第一候选标志位置的镜像的位置的公差区域内;和
确定所述第一候选标志是真标志,并且所述第二候选标志是图像标志。
12.根据权利要求11所述的系统,其中所述第一候选标志和所述第二候选标志是有效的交通标志。
13.根据权利要求12所述的系统,还包括自动车辆控制系统,所述自动车辆控制系统被配置为忽略所述第二候选标志,并鉴于所述第一候选标志绘制车辆的驾驶路径。
14.一种方法,包括:
使用车辆的感测系统获得包括车辆环境的区域的相机图像和车辆环境的区域的深度信息的组合图像,其中深度信息包括激光雷达数据、雷达数据、立体图像数据或超声波数据中的至少一个;
将组合图像中的第一标志分类为图像真标志;
执行第一标志的空间验证,该空间验证包括评估第一标志和车辆环境区域中的一个或多个对象的空间关系;和
基于所执行的空间验证,将第一标志识别为真标志。
15.根据权利要求14所述的方法,其中将所述第一标志分类为图像真标志包括:
将经训练的机器学习模型应用于组合图像的至少一部分。
16.根据权利要求14所述的方法,其中将所述第一标志分类为图像真标志包括将所述第一标志识别为其镜像是有效标志的标志,所述方法还包括:
通过将第二标志识别为其镜像是无效标志的标志,将组合图像中的第二标志分类为图像伪标志;和
将第二标志识别为真标志。
17.根据权利要求14所述的方法,进一步包括:
将组合图像中的第二标志分类为图像真标志;
其中执行第一标志的空间验证包括:
执行第一标志和第二标志的联合空间验证,该联合空间验证包括评估第一标志、第二标志和位于第一标志和第二标志之间的反射表面的空间关系;和
基于所执行的联合空间验证,将第二标志识别为图像标志。
18.根据权利要求17所述的方法,其中执行所述联合空间验证包括:
识别第二标志是第一标志的镜像;和
确定第二标志位于作为第一标志相对于反射表面的位置的镜像的位置的公差区域内。
19.根据权利要求14所述的方法,其中执行所述第一标志的空间验证包括:
识别不存在位于作为第一标志相对于反射表面的位置的镜像的位置的公差区域内的第一标志的对应物标志。
20.根据权利要求14所述的方法,执行第一标志的空间验证包括:
从车辆的感测系统识别不存在遮挡第一标志的位置的对象。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US17/451,558 US20230119634A1 (en) | 2021-10-20 | 2021-10-20 | Identification of real and image sign detections in driving applications |
US17/451,558 | 2021-10-20 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115991207A true CN115991207A (zh) | 2023-04-21 |
Family
ID=83899777
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211287015.1A Pending CN115991207A (zh) | 2021-10-20 | 2022-10-20 | 驾驶应用中真标志和图像标志检测的识别 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20230119634A1 (zh) |
EP (1) | EP4170606A1 (zh) |
CN (1) | CN115991207A (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20230303092A1 (en) * | 2022-03-28 | 2023-09-28 | Gm Cruise Holdings Llc | Perception error identification |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9558411B1 (en) * | 2014-08-29 | 2017-01-31 | Google Inc. | Plane estimation for contextual awareness |
DE102018216983B3 (de) * | 2018-10-04 | 2019-11-28 | Audi Ag | Verfahren zum Unterdrücken von Abbildungen von Reflexionen in zumindest einem Kamerabild einer Kamera einer Umfeldsensorvorrichtung eines Kraftfahrzeugs sowie entsprechende Umfeldsensorvorrichtung |
US11353578B2 (en) * | 2019-02-28 | 2022-06-07 | Zoox, Inc. | Recognizing radar reflections using position information |
US11435439B2 (en) * | 2019-08-19 | 2022-09-06 | Waymo Llc | Multibounce target mitigation |
WO2022005478A1 (en) * | 2020-07-01 | 2022-01-06 | Harman International Industries, Incorporated | Systems and methods for detecting projection attacks on object identification systems |
-
2021
- 2021-10-20 US US17/451,558 patent/US20230119634A1/en active Pending
-
2022
- 2022-10-20 EP EP22202688.2A patent/EP4170606A1/en active Pending
- 2022-10-20 CN CN202211287015.1A patent/CN115991207A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
US20230119634A1 (en) | 2023-04-20 |
EP4170606A1 (en) | 2023-04-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20230038842A1 (en) | Association of camera images and radar data in autonomous vehicle applications | |
US11841439B2 (en) | Point cloud segmentation using a coherent lidar for autonomous vehicle applications | |
US11702102B2 (en) | Filtering return points in a point cloud based on radial velocity measurement | |
US20220128995A1 (en) | Velocity estimation and object tracking for autonomous vehicle applications | |
US20230260266A1 (en) | Camera-radar data fusion for efficient object detection | |
US20220146676A1 (en) | Doppler-assisted object mapping for autonomous vehicle applications | |
US20220402521A1 (en) | Autonomous path generation with path optimization | |
EP4102251A1 (en) | Determination of atmospheric visibility in autonomous vehicle applications | |
US20230162508A1 (en) | Vehicle light classification system | |
US20230326215A1 (en) | End-to-end object tracking using neural networks with attention | |
EP4170606A1 (en) | Identification of real and image sign detections in driving applications | |
EP4227909A1 (en) | Infrared sensing data-assisted classification of vulnerable road users | |
US20230294687A1 (en) | End-to-end processing in automated driving systems | |
US20230244242A1 (en) | Detection of particulate matter in autonomous vehicle applications | |
WO2023158642A1 (en) | Camera-radar data fusion for efficient object detection | |
EP4105605A1 (en) | Implementing synthetic scenes for autonomous vehicles | |
US11753045B2 (en) | Modeling positional uncertainty of moving objects using precomputed polygons | |
US20230046274A1 (en) | Identification of spurious radar detections in autonomous vehicle applications | |
US20240096105A1 (en) | Object identification in bird's-eye view reference frame with explicit depth estimation co-training | |
US20230351243A1 (en) | Unification of specialized machine-learning models for efficient object detection and classification | |
US20240025446A1 (en) | Motion planning constraints for autonomous vehicles | |
US11854269B2 (en) | Autonomous vehicle sensor security, authentication and safety | |
RU2775817C2 (ru) | Способ и система для обучения алгоритма машинного обучения с целью обнаружения объектов на расстоянии | |
WO2024118992A1 (en) | Multi-frame temporal aggregation and dense motion estimation for autonomous vehicles |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |