CN118262298A - 存在于道路上的对象的分类 - Google Patents
存在于道路上的对象的分类 Download PDFInfo
- Publication number
- CN118262298A CN118262298A CN202311813376.XA CN202311813376A CN118262298A CN 118262298 A CN118262298 A CN 118262298A CN 202311813376 A CN202311813376 A CN 202311813376A CN 118262298 A CN118262298 A CN 118262298A
- Authority
- CN
- China
- Prior art keywords
- images
- vehicle
- annotation
- marker images
- marker
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 claims abstract description 97
- 239000003550 marker Substances 0.000 claims description 81
- 238000012549 training Methods 0.000 claims description 48
- 238000004422 calculation algorithm Methods 0.000 claims description 35
- 230000015654 memory Effects 0.000 claims description 29
- 238000012545 processing Methods 0.000 claims description 23
- 238000010801 machine learning Methods 0.000 claims description 8
- 230000005540 biological transmission Effects 0.000 claims description 7
- 238000004891 communication Methods 0.000 description 21
- 238000013528 artificial neural network Methods 0.000 description 15
- 238000005516 engineering process Methods 0.000 description 15
- 230000006870 function Effects 0.000 description 15
- 238000013480 data collection Methods 0.000 description 6
- 230000008447 perception Effects 0.000 description 6
- 239000013598 vector Substances 0.000 description 6
- 238000004590 computer program Methods 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 241001465754 Metazoa Species 0.000 description 3
- 230000001413 cellular effect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000007613 environmental effect Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000010267 cellular communication Effects 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- 238000011524 similarity measure Methods 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 239000013589 supplement Substances 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 239000004566 building material Substances 0.000 description 1
- QVFWZNCVPCJQOP-UHFFFAOYSA-N chloralodol Chemical compound CC(O)(C)CC(C)OC(O)C(Cl)(Cl)Cl QVFWZNCVPCJQOP-UHFFFAOYSA-N 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19147—Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
- G06V20/54—Surveillance or monitoring of activities, e.g. for recognising suspicious objects of traffic, e.g. cars on the road, trains or boats
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W60/00—Drive control systems specially adapted for autonomous road vehicles
- B60W60/001—Planning or execution of driving tasks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
- G06F18/2178—Validation; Performance evaluation; Active pattern learning techniques based on feedback of a supervisor
- G06F18/2185—Validation; Performance evaluation; Active pattern learning techniques based on feedback of a supervisor the supervisor being an automated module, e.g. intelligent oracle
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
- G06V20/58—Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
- G06V20/58—Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
- G06V20/582—Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads of traffic signs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
- G06V20/58—Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
- G06V20/584—Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads of vehicle lights or traffic lights
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/70—Labelling scene content, e.g. deriving syntactic or semantic representations
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W2420/00—Indexing codes relating to the type of sensors based on the principle of their operation
- B60W2420/40—Photo, light or radio wave sensitive means, e.g. infrared sensors
- B60W2420/403—Image sensing, e.g. optical camera
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Automation & Control Theory (AREA)
- Human Computer Interaction (AREA)
- Transportation (AREA)
- Mechanical Engineering (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- General Engineering & Computer Science (AREA)
- Traffic Control Systems (AREA)
Abstract
本公开涉及存在于道路上的对象的分类。一种用于确定存在于在道路上行驶的车辆的周围环境中的至少一个对象与目标对象类别的关联的方法包括从车辆的传感器系统获得传感器数据,该传感器数据包括由车载相机捕获的车辆的周围环境的一个或多个图像。该方法进一步包括基于获得的传感器数据来确定该至少一个对象在车辆的周围环境中的存在以及获得至少表示目标对象类别的注释图像的有限子集。该有限子集包括比阈值数量小的数量的注释图。此外,该方法包括确定该至少一个对象与目标对象类别之间的初步关联,并且当初步关联被确定时,该方法进一步包括为该至少一个对象的一个或多个图像产生图像标签。
Description
技术领域
公开的技术涉及用于确定至少一个对象与目标对象类别的关联的方法和系统,其中该至少一个对象存在于在道路上行驶的车辆的周围环境中。具体地但不排他地,公开的技术涉及存在于车辆的周围环境中的对象的识别和分类。
背景技术
在过去几年期间,与自主汽车相关的研究和开发活动在数量上已经激增,并且正在探索许多不同的方法。越来越多的现代车辆具有高级驾驶辅助系统(ADAS),以提高车辆安全性以及更普遍的道路安全性。ADAS(例如,其可以通过自适应巡航控制(ACC)碰撞避免系统、前向碰撞警告等来表示)是可以在驾驶时帮助车辆驾驶者的电子系统。今天,在与ADAS和自主驾驶(AD)领域两者相关的多种技术领域中都有持续的研究和开发。ADAS和AD在本文中将被称为与例如由SAE J3016驾驶自动化级别(0-5)并且特别是级别4和级别5限定的不同的自动化级别中的全部相对应的通用术语自动驾驶系统(ADS)。
ADS解决方案已经应用于市场上的大多数新车,并且在不远的将来,其应用前景只会越来越好。ADS可以被解释为各种部件的复杂组合(其可以被限定为由电子装置和机器代替人类驾驶者或与人类驾驶者协同执行车辆的感知、决策和操作的系统),并且可以被解释为将自动化引入道路交通。这包括车辆的操控、目的地以及对周围环境的感知。虽然自动化系统具有对车辆的控制,但是其允许人类操作者将所有或至少部分职责留给系统。ADS通常结合各种传感器(诸如例如雷达、激光雷达(LIDAR)、声纳、相机、导航系统(例如,GPS)、里程表和/或惯性测量单元(IMU))来感知车辆的周围环境,在此基础上,高级控制系统可以解释传感器信息以识别合适的导航路径以及障碍物、可行驶区域和/或相关标志。
为预期的自主和半自主车辆实现可靠的自主功能的必要方面是获得对存在于车辆的周围环境中的对象的全面理解。几乎无穷无尽的各种对象(诸如不同的交通标志、信号或野生动物等)存在于不同国家和地理区域的道路上。例如,语义交通标志类别的数量已经很大并且在不同的国家有所不同。此外,不同的国家通常具有不同外观的通用交通标志类别以及它们自己的特定对象类别。这使得检测、识别和分类这些对象的任务变得相当具有挑战性。解决这个问题的一个传统解决方案是使用对表示这些对象的大量标记数据集进行训练的深度学习算法。然而,这些对象中的绝大多数(诸如特定的交通标志类型)可能极其罕见(在一条道路上每隔数千公里才出现一次),或者基于其地理和国家领土而具有极端的多样性。这给旨在生成供自动驾驶应用使用的训练数据的数据收集项目带来了令人筋疲力尽的负担。此外,利用标准训练方案训练的神经网络表现出有限的效率,原因在于它们在能够检测新类型的对象之前需要多种训练数据样本。对于罕见类型的对象,传统的方法甚至可能非常昂贵和耗时。
因此,在本领域中迫切需要用于以高精度和高速度对道路上的各种对象进行分类并且不需要大量的数据收集的新颖且改进的解决方案。
发明内容
在本文中公开的技术试图减缓、缓解或消除现有技术中的一个或多个上述缺陷和缺点,以解决与对象的分类相关的各种问题。
公开的发明的各种方面和实施例在下文中并且在所附独立和从属权利要求中限定。术语“示例性”在当前上下文中被理解为用作实例、示例或说明。
公开的技术的第一方面包括用于确定至少一个对象与目标对象类别的关联的方法,该至少一个对象存在于在道路上行驶的车辆的周围环境中。该方法包括从车辆的传感器系统获得传感器数据,该传感器数据包括由车载相机捕获的车辆的周围环境的一个或多个图像。该方法进一步包括基于获得的传感器数据来确定该至少一个对象在车辆的周围环境中的存在。此外,该方法包括获得至少表示目标对象类别的注释图像的有限子集,该有限子集包括比阈值数量小的数量的注释图像。该方法还包括基于获得的包括该至少一个对象的一个或多个图像的传感器数据和获得的注释图像的有限子集来确定该至少一个对象与目标对象类别之间的初步关联。当初步关联被确定时(即,在初步关联被确定的实例中),该方法进一步包括为该至少一个对象的一个或多个图像产生图像标签,以获得指示该至少一个对象与目标对象类别的初步关联的一个或多个标记图像。此外,该方法包括选择一个或多个标记图像用于为该一个或多个标记图像生成相应的对象识别注释。
在一些示例性实施例中,该方法还可以包括将选择的该至少一个对象的该一个或多个标记图像传输到远程服务器并且/或者将选择的该一个或多个标记图像存储在车辆的存储器中用于随后传输到远程服务器,以用于至少基于从车辆传输的该至少一个对象的一个或多个标记图像来生成相应的对象识别注释。
在某些实施例中,该方法可以进一步包括将选择的该一个或多个标记图像存储在车辆的存储器中以及为该至少一个对象的一个或多个标记图像生成相应的对象识别注释。
在一些实施例中,该方法可以进一步包括从远程服务器和/或从在道路上行驶的多个车辆获得选择的该至少一个对象的一个或多个标记图像的集合,其中,选择的该至少一个对象的一个或多个标记图像的集合包括该至少一个对象的由多个车辆中的每一个车辆产生和选择的一个或多个标记图像。该方法可以进一步包括基于获得的选择的该至少一个对象的一个或多个标记图像的集合来生成相应的对象识别注释。
根据另外的实施例,该方法可以进一步包括形成用于机器学习ML算法的训练数据集,该机器学习ML算法被配置用于基于生成的对象识别注释来识别该至少一个对象。附加地或可替代地,该方法可以包括将生成的对象识别注释传输到远程服务器用于形成用于机器学习ML算法的训练数据集。
在某些实施例中,该方法可以进一步包括从远程服务器获得注释图像的更新后的有限子集,该更新后的有限子集利用为该至少一个对象的一个或多个标记图像生成的对象识别注释来更新。附加地或可替代地,该方法可以进一步包括利用为该至少一个对象的一个或多个标记图像而生成的对象识别注释来更新注释图像的有限子集。
相应地,发明人已经认识到,通过使用根据在本文中提出的方法和系统的数据驱动方法,可以在对诸如包括交通对象的路侧对象的对象进行分类中实现可扩展性、速度和可再现性,而不需要对大量数据收集的严格要求。本公开的数据驱动方法提供了灵活的、成本高效的并且快速的用于生成用于训练神经网络和ML算法的训练数据的方法,特别是对于真实世界数据的多种样本既不能被收集也可能不可用的对象。这也极大地有助于解决在涉及多个环境变量或条件同时发生或者超出常规级别的情况下识别罕见对象的问题。
在某些实施例中,该方法可以进一步包括通过小样本学习模型来确定该至少一个对象和目标对象类别之间的初步关联。
在某些实施例中,车辆可以包括自动驾驶系统ADS,并且该方法可以由车辆的处理电路执行。
在公开的技术的第二方面,提供了存储被配置成由处理系统的一个或多个处理器执行的一个或多个程序的(非暂时性)计算机可读存储介质,该一个或多个程序包括用于执行根据在本文中公开的方法的实施例中的任一个的方法的指令。
对于公开的技术的这一方面,存在与其它方面的优点和优选特征类似的优点和优选特征。
如在本文中使用的,术语“非暂时性”旨在描述计算机可读存储介质(或“存储器”)而不包括传播电磁信号,而且不旨在以其它方式限制由短语计算机可读介质或存储器包含的物理计算机可读存储装置的类型。例如,术语“非暂时性计算机可读介质”或“有形的存储器”旨在包含不一定永久地存储信息的存储装置的类型,例如,包括随机存取存储器(RAM)。以非暂时性的形式存储在有形的计算机可访问存储介质上的程序指令和数据可以通过传输介质或信号(例如,电信号、电磁信号或数字信号)被进一步传输,这些信号可以经由诸如网络和/或无线链路的通信介质来传输。因此,如在本文中使用的,术语“非暂时性”是对介质本身(即有形的,而不是信号)的限制,而不是对数据存储持久性的限制(例如,RAM还是ROM)。
根据本公开的第三方面,提供了包括指令的计算机程序产品,当程序由处理系统的一个或多个处理器执行时,该程序促使处理系统执行根据在本文中公开的方法的任何一个实施例的方法。
根据又一第四方面,提供了用于确定至少一个对象与目标对象类别的关联的系统,该至少一个对象存在于在道路上行驶的车辆的周围环境中。该系统包括处理电路,该处理电路被配置成从车辆的传感器系统获得传感器数据,该传感器数据包括由车载相机捕获的车辆的周围环境的一个或多个图像。该处理电路进一步被配置成基于获得的传感器数据来确定至少一个对象在车辆的周围环境中的存在以及获得至少表示目标对象类别的注释图像的有限子集,该有限子集包括比阈值数量小的数量的注释图像。该处理电路进一步被配置成基于获得的包括该至少一个对象的一个或多个图像的传感器数据和获得的注释图像的有限子集来确定该至少一个对象与目标对象类别之间的初步关联。当初步关联被确定时(即,在初步关联被确定的实例中),该处理电路进一步被配置成为该至少一个对象的一个或多个图像产生图像标签,以获得指示该至少一个对象与目标对象类别的初步关联的一个或多个标记图像。此外,该处理电路被配置成选择一个或多个标记图像用于为一个或多个标记图像生成相应的对象识别注释。根据又一第五方面,提供了包括一个或多个车载传感器的车辆,该一个或多个车载传感器被配置成监控车辆的周围环境。该车辆进一步包括被配置成监控车辆的姿态(即,在道路上的车辆的地理位置和前进方向)的定位系统。该车辆进一步包括根据第四方面以及第四方面的各种实施例的系统。车辆可以进一步包括用于控制车辆的加速、转向和制动中的一个或多个的ADS系统。
公开的方面和优选实施例可以以对本领域普通技术人员来说显而易见的任何方式彼此合适地组合,使得关于一个方面公开的一个或多个特征或实施例也可以被认为是关于另一方面或另一方面的实施例公开的。
应注意,与第一方面相关的所有实施例、元件、特征和优点也类似地适用于本公开的第二、第三、第四和第五方面。
在从属权利要求中限定了进一步的实施例。应强调,当在本说明书中使用时,术语“包括/包含”是用来指明所述的特征、整体、步骤或部件的存在。这不排除一个或多个其它特征、整体、步骤、部件或其组合的存在或添加。
参考在下文中描述的实施例,公开的技术的这些和其它特征及优点将在下文中被进一步阐明。
附图说明
当结合附图时,通过参考本公开的示例实施例的以下说明性且非限制性的详细描述,将更全面地理解公开的技术的上述方面、特征和优点。附图不是按比例绘制的。
图1示出了根据本公开的某些实施例的道路以及在道路上行驶的至少一个车辆的示意性俯视图。
图2示出了根据本公开的某些实施例的示意性框图。
图3示出了说明根据本公开的某些实施例的方法的示意性流程图。
图4示出了说明包括根据本公开的一些实施例的控制系统的车辆的示意性侧视图。
具体实施方式
现在将参考其中示出了公开的技术的一些示例实施例的附图详细地描述本公开。然而,公开的技术可以以其它形式来体现,并且不应被解释为限于公开的示例实施例。公开的示例实施例被提供以向本领域技术人员充分地传达公开的技术的范围。本领域技术人员将理解,在本文中解释的步骤、服务和功能可以使用单独的硬件电路、使用结合编程后的微处理器或通用计算机起作用的软件、使用一个或多个专用集成电路(ASIC)、使用一个或多个现场可编程门阵列(FPGA)并且/或者使用一个或多个数字信号处理器(DSP)来实现。
还将理解,当根据方法描述本公开时,其也可以被体现在包括一个或多个处理器、耦接到一个或多个处理器的一个或多个存储器的装置中,其中计算机代码被加载以实施该方法。例如,在一些实施例中,一个或多个存储器可以存储在由一个或多个处理器执行时执行在本文中公开的步骤、服务和功能的一个或多个计算机程序。
还应理解,在本文中使用的术语仅是为了描述特定的实施例的目的,并且不旨在是限制性的。应当注意,如说明书和所附权利要求中使用的,冠词“一”、“该”和“所述”旨在表示存在元件中的一个或多个,除非上下文另外明确指示。因此,例如,在一些语境中,“单元”或“该(所述)单元”的引用可以指一个以上的单元等。此外,词语“包括”、“包含”、“含有”不排除其它元件或步骤。应强调,当在本说明书中使用时,术语“包括/包含”是用来指明所述的特征、整体、步骤或部件的存在。这不排除一个或多个其它特征、整体、步骤、部件或其组合的存在或添加。术语“和/或”也应被解释为表示含义“两者”以及作为替代的每一个。术语“获得”在本文中应被广义地解释,并且包括接收、检索、收集、获取等。如在本文中使用的,根据上下文,术语“如果”可以被解释为表示“当……时”或“在……时”或“在……的实例中”或“响应于确定……”或“响应于检测到……”。类似地,根据上下文,短语“如果确定……”或“当确定……时”或“在……实例中”可以被解释为表示“在确定……时”或“响应于确定……”或“在检测并识别到事件的发生时”或“响应于检测到事件的发生”。
还将理解,尽管术语第一、第二等在本文中可以用来描述各种元件或特征,但是这些元件不应受这些术语的限制。这些术语仅用于将一个元件与另一元素区分开。例如,第一信号可以被称为第二信号,并且类似地第二信号可以被称为第一信号,而不脱离实施例的范围。第一信号和第二信号两者是信号,但它们不是同一信号。
在示例性实施例的以下描述中,相同的附图标记表示相同或相似的部件。
图1以剖面线阴影图案示出了车辆1的示意性透视俯视图。车辆1也可以被称为主车辆。此外,图1示出了与主车辆1行驶在道路22的相同的部分24上的至少一个外部车辆2。在一些实施例中,该至少一个外部车辆2可以与主车辆1同时存在于部分24中,然而在一些实施例中,该至少一个外部车辆2可以在另一个场合(即与主车辆1在不同的时间点)存在于道路22的部分24中。主车辆1和该至少一个外部车辆2可以被包括在车队中,并且因此在某些实施例和方面中,可以收集和分析来自包括一个或多个车辆1、2的车队的数据。应理解,尽管在该描述的示例中,例如在图1中仅示出和描述了一个外部车辆2,但是示例和实施例可以等同地应用于车队中包括的多个车辆。车辆2可以是与主车辆1相同或相似的车辆(即,具有相同或相似的功能和部件并且能够实施和执行在本文中呈现的技术的各个方面)。
在某些示例和实施例中,道路22可以是任何类型的道路(例如,汽车道路、快速路或高速公路的一部分)。道路也可以是乡村道路、村镇道路或任何其它车道。道路可以具有诸如在相同行驶方向上的多于一条车道(例如,两条或更多条车道22a、22b)或者通常是乡村道路的情况的在每一个行驶方向上的至少一条车道的多条车道。在该示例中,道路22具有在相同方向上延伸的两条车道22a和22b。
主车辆1和/或该至少一个外部车辆2可以包括自动驾驶系统(ADS)。在当前的上下文中,ADS包括ADAS系统和AD系统两者。在一些实施例中,主车辆1的ADS可以包括一个或多个ADS特征(优选地,其是根据道路上车辆的驾驶自动化的SAE J3016级别的级别2或更高级别的特征)。在当前的上下文中,ADS特征可以是自动驾驶特征、交通堵塞导航、高速公路导航或任何其它SAE J3016级别2+ADS特征的形式。
在图1中描述了可以被布置或可以存在于道路22的任何部分处(例如,在行驶的车辆1被描述在其上的道路部分24上)的至少一个对象4a、4b。该至少一个对象4a、4b可以是包括诸如交通灯或警告标志等的交通标志或信号的交通对象。在一些实施例中,该至少一个对象4a、4b可以包括野禽或各种品类的动物。在一些其它实施例和示例中,该至少一个对象4a、4b可以是存在于道路22上的任何类型的对象(其示例可以包括碎片、建筑材料、不同的植被、倒下的树木、其它车辆、路侧障碍物、路障等)。
主车辆1包括可以是单独的实体或者可以是车辆的整个ADS架构的一部分并且因此可以是ADS的模块或部件的控制系统10或也被称为控制装置10。车辆1的控制系统10包括被配置成获得包括关于车辆1的周围环境的信息的数据的控制电路11或也被称为处理电路11。在某些方面和实施例中,车辆1的周围环境的信息和数据可以从车辆1的传感器系统320获得。主车辆1的周围环境可以被理解为主车辆周围的其中对象(诸如其它车辆、地标、障碍物等)可以被车辆传感器(雷达、激光雷达、相机等)检测和识别的一般区域,即在主车辆1的传感器范围内。
车辆1可以访问和利用地图数据,更具体地说是高清地图数据。在当前上下文中,高清地图被理解为包括具有车辆1行驶的道路的高度精确和真实表示的数据的地图。更详细地,高清地图可以被理解为专门为自主驾驶目的构建的地图。这些地图具有极高的精度,通常在厘米级。此外,地图通常包含诸如车道在哪里、道路边界在哪里、弯道在哪里、弯道有多高等信息。
控制系统10被配置用于从在道路22上行驶的主车辆1的传感器系统320获得传感器数据。所获得的传感器数据可以包括关于道路22的一条或多条车道上的车道标志几何形状、道路22上的车道标志类型(例如实线、虚线、双标志等)、交通标志信息4、诸如减速带或任何其它道路障碍对象的存在或特性的道路障碍信息等的信息。在某些方面和实施例中,传感器数据可以包括由作为传感器系统320的一部分的车载相机(未示出)捕获的车辆1的周围环境的一个或多个图像。在当前上下文中,相机还包括安装在主车辆1的某些部分上用于捕获主车辆1的周围环境的图像的的多个车载相机。捕获的图像可以本地地存储在主车辆1的存储器12中,并且/或者可以被传输到主车辆1与之通信的诸如云网络20的外部网络20。
主车辆1的控制系统10进一步被配置成基于所获得的传感器数据来确定至少一个对象4a、4b在主车辆1的周围环境中的存在。
此外,控制系统10被配置成获得至少表示目标对象类别的注释图像的有限子集。也可以被称为支持集的有限子集包括小于阈值数量的多个注释图像。
在当前的上下文中,对象4a、4b将被解释为用于神经网络的未分类或未标记的对象。换句话说,该至少一个对象可以是用于被配置成用于识别对象的神经网络的新的对象。为了生成用于神经网络的训练数据,新的对象可以被分类到相应的对象类别中,该对象类别可以用于训练神经网络。
这里,目标对象类别包含还没有可用于其的足够信息的对象类别。需要收集进一步的数据样本并将其分类到目标对象类别中,以将目标对象类别视为图表对象类别。在一些实施例或方面中,目标对象类别可以是非常有限的信息可用于其新的对象类别。可替代地,目标对象类别可以是已经识别的对象类别,对于该对象类别,已经收集了至少一些数据样本并且对其进行了注释,但是目标对象类别还需要额外的数据。在一些实施例和方面中,已知对象类别的子类别(诸如已知类别的交通标志的新变型)可以被指定为目标对象类别。
在某些实施例和方面中,支持集仅包括少量或有限数量的注释样本(例如,被认为是至少表示目标对象类别的交通对象的少量注释图像)。在一些示例中,少数注释样本可以包括表示目标对象类别的选定象形图。在当前上下文中,有限子集中包含的少量或有限数量的注释图像因此被解释为表示目标对象类别的一定数量的可用注释图像,该数量显著小于常规收集的和训练神经网络所需的注释图像的数量。在某些方面和实施例中,有限子集可以仅包括一个注释图像,或者简单地包括少量的注释图像(比如,表示目标对象类别的两个、三个、四个、五个、十个、二十个等注释图像)。
在当前的上下文中的阈值数量强调了可用于将对象分类到其对应的目标对象类别中的有限信息量。因此,阈值可以显著地小于数据的量(例如,神经网络的传统训练方案的训练数据集中所需的注释图像或数据样本的数量)。在一些实例中并且仅作为示例,阈值可以是最多2个或最多5个或最多10个或最多100个可用注释图像等。
在某些实施例和方面中,有限子集可以包括用于多个目标对象类别的有限数量的注释图像。用于每一个目标对象类别的一定数量的可用注释图像的数量可以类似地仅包括比用于每一个目标对象类别的阈值数量小的少量可用的注释图像。用于整个有限子集的多个目标对象类别的可用注释图像的总数也可以小于阈值数量。
在某些实施例中,控制系统10进一步被配置成确定在道路22上检测到的至少一个对象4a、4b与目标对象类别之间的初步关联。目标对象类别被形成为通过识别该至少一个对象4a、4b并将该对象4a、4b指定为该目标对象类别以建立至少一个检测到的对象4a、4b的分类。
控制系统10被配置成基于从车辆的传感器系统320获得的包括该至少一个对象4a、4b的一个或多个图像的传感器数据并且基于获得的表示相应的目标对象类别的注释图像的有限子集来建立和确定初步关联。
控制系统10因此被配置成获得要被分类的对象4a、4b的有限子集。利用一个或少量注释图像作为训练样本来管理有限子集,训练样本表示需要进一步样本收集的对象类别(即,目标对象类别)。控制系统10进一步被配置成确定输入的对象的一个或多个图像是否符合表示在有限子集中描述的目标对象类别的该一个或少量注释图像。在某些实施例和方面中,控制系统10被配置成迭代地执行检测到的对象4a、4b的一个或多个图像与在有限子集中描述的目标对象类别的初步关联的确定。
在某些方面和实施例中,控制系统10可以被配置用于通过小样本学习(few shotlearning,FSL)模型来确定该至少一个对象4a、4b与目标对象类别之间的初步关联。FSL模型可以在车辆1的控制系统10的处理电路11中实施并由其执行。
本当前的上下文中,FSL将被解释为用于利用少量的训练数据来开发神经网络模型的一系列技术和算法。在小样本学习方法中,模型接收检测到的对象的一个或多个图像和支持集两者作为输入。在FSL训练期间,模型有望预测输入的检测到的对象的一个或多个图像是否属于在支持集中描述的目标对象类别。这允许神经网络模型在其仅被暴露于少量训练实例之后分类和识别新数据。当在当前描述中被称为FSL模型时,应理解,术语FSL模型还包括在支持集中只有一个可用的注释训练数据样本的情况,或被称为看一眼(one-shot)模型配置。
如前所述,传统的机器学习算法和神经网络(诸如监督机器学习算法)可以基于大量的传统真实世界数据来训练、测试和验证。训练后的神经网络可以相应地被配置用于预测检测到的对象的对象类别,其中检测到的对象的一个或多个图像通常被输入到训练后的神经网络。训练后的模型有望推广到先前未见过的检测到的对象的图像,然而为了使模型识别对象,所讨论的对象必须存在于神经网络的训练集中。
训练数据通常通过在各种环境条件下在各种类型的道路上驾驶主车辆1或车队中包括的多个车辆或专用测试车辆并持续合适的时间段来获得,以收集和评估道路上检测到的对象的大数据集。然而,存在于道路上和车辆的周围环境中的多种对象可能使得数据收集和形成相应的训练数据集的任务实际上无法实现。这对于对象是刚被引入到交通中并且还没有足够数量的数据可用的罕见对象(例如诸如交通标志或信号的交通对象)的情况更为相关。另一示例可以是稀有动物物种,它们没有被完全分类,并且根据它们的地理栖息地可能有很大的不同。
发明人已经认识到,通过使用包括使用FSL模型的数据驱动方法,可以在诸如路侧交通对象的对象的分类中实现可扩展性、速度和可再现性,而不需要对大量数据收集的严格要求。本公开的数据驱动方法提供了灵活的、成本高效的并且快速的用于生成用于训练神经网络和ML算法的训练数据的方法,特别是对于真实世界数据的多种样本既不能被收集也可能不可用的对象。这也极大地有助于解决在涉及多个环境变量或条件同时发生或者超出常规级别的情况下识别罕见对象的问题。
在本文中提出的FSL模型训练方法提供了优于用于特别涉及训练数据收集的机器学习算法的传统训练方法的显著优点。与其中神经网络应被暴露于非常大量的训练数据的传统训练方案不同,所提出的FSL模型训练方法使得能够在关于对象及其相应的目标对象类别的先验信息的可用性最小的情况下将对象分类到它们各自的对象类别中。FSL模型有利地要求支持集仅包含目标对象类别的一个或少量注释训练样本。
因此,在某些方面和实施例中,车辆1的控制系统10可以被配置成提供由车辆传感器系统320获得的至少一个对象4a、4b的一个或多个图像以及所获得的包括表示目标对象类别的一个或少量注释图像的支持集,作为对FSL模型的输入。相应地,FSL模型被配置成提供该至少一个对象4a、4b与目标对象类别之间的初步关联。
在某些方面和实施例中,支持集可以被构造成包括至少目标对象类别的一个或少量注释图像。在一些实施例中,支持集可以被构造成包括用于为FSL模型管理的多个目标对象类别中的每一个目标对象类别的一个或少量注释图像。FSL模型可以通过利用本领域已知的几种方法来实现。举例来说,FSL模型可以被配置成使用诸如ResNet等编码器将一个或少量注释图像中的每一个图像编码成特征向量,而不使用终端分类器。这提供了一组特征向量,每一个特征向量具有相关联的标签。所获得的该至少一个对象4a、4b的一个或多个图像最初也利用用于编码支持集的注释图像的同一图像编码器进行编码。然后,将对象4a、4b的结果特征向量与用于每一个目标对象类别的一个或少量注释图像的特征向量集的每一个元素进行比较。控制系统10可以被配置成通过利用相似度度量(例如,通过余弦相似度度量或欧几里德距离度量)来执行比较。然后,可以将得到的相似度提供到归一化函数(例如,softmax函数)以将FSL模型的相似度输出归一化为概率分布。然后,softmax函数的每一个输出被解释为该至少一个对象4a、4b的一个或多个图像具有与目标对象类别的一个或少量注释图像的相应的特征向量的标签相同的标签的概率。这样,FSL模型被配置成建立该至少一个对象4a、4b与目标对象类别的初步关联,并且因此对至少一个对象4a、4b进行初步分类。
在某些实施例和方面中,当至少一个对象4a、4b与相应的目标对象类别之间的初步关联被确定时,控制系统10进一步被配置成产生用于该至少一个对象4a、4b的一个或多个图像的图像标签,以获得指示该至少一个对象4a、4b与目标对象类别的初步关联的一个或多个标记图像。此外,控制系统10被配置成选择一个或多个标记图像,用于为一个或多个标记图像生成相应的对象识别注释。换句话说,选择的图像被控制系统10标记为将被用于该至少一个对象4a、4b的精确分类、识别和识别的候选。更进一步,在某些实施例和方面中,标记的图像可以用于生成对象识别注释,这些注释可以用于形成ML算法的训练数据集,该ML算法被配置用于识别至少一个对象4a、4b。
当该至少一个对象4a、4b是诸如交通标志和/或交通信号等的交通对象时,该一个或多个标记图像被用于为该交通对象的一个或多个标记图像生成相应的交通对象识别注释。
在某些实施例中,主车辆1的控制系统10可以将所选择的该至少一个对象4a、4b的一个或多个标记图像传输到远程服务器15。可替代地或附加地,在某些实施例中,主车辆1可以将所选择的一个或多个标记图像存储在主车辆1的存储器12中,用于随后传输到远程服务器15。所选择的一个或多个标记图像可以用于为该至少一个对象4a、4b的一个或多个标记图像生成相应的对象识别注释。换句话说,该至少一个对象4a、4b的已经被选择作为用于识别该至少一个对象4a、4b的候选的标记图像被发送到远程服务器15,在远程服务器15中,标记图像被设定为例如由人类操作者手动注释和/或自动注释。如前所述,所生成的注释然后可以用于形成用于对象识别的ML算法的训练数据集。
在一些实施例中,车辆1的控制系统10被配置成将所选择的该至少一个对象的一个或多个标记图像存储在车辆1的存储器12中并且为该至少一个对象的一个或多个标记图像生成相应的对象识别注释。换句话说,主车辆1被配置用于借助于车辆的控制系统10的处理电路11自动生成与该至少一个对象4a、4b相对应的图像注释,而不需要将标记图像传输到远程服务器15进行处理。自动生成的图像注释可以用于形成用于对象识别的ML算法的训练数据集。
在某些实施例中,主车辆1的控制系统10可以进一步被配置成从远程服务器15获得所选择的该至少一个对象的一个或多个标记图像的集合,所选择的一个或多个标记图像的集合由在车队服务器中包括的每一个车辆1、2传输到服务器15。附加地或可替代地,主车辆1的控制系统10可以进一步被配置成从多个车辆1、2(即,在道路上行驶的车队)获得所选择的该至少一个对象的一个或多个标记图像的集合。车辆1、2的车队可以被配置成例如经由诸如车辆对车辆(V2V)通信协议的连接解决方案直接通信或者例如经由外部网络20和远程服务器15(例如,云服务器)间接通信。
所选择的该至少一个对象的一个或多个标记图像的集合因此可以包括由多个车辆中的每一个车辆1、2产生和选择的至少一个对象4a、4b的一个或多个标记图像。控制系统10可以进一步被配置成基于所获得的至少一个对象4a、4b的所选择的基于车队的候选数据的一个或多个标记图像的集合来生成相应的对象识别注释。
在一些示例性实施例中,从车队接收的至少一个对象4a、4b的所选择的一个或多个图像的集合可以基于FSL模型的用于一个或多个对象4a、4b中的每一个的一个或多个图像的相应输出被输入到分级方案中。对象的具有比阈值高的可能性分数的FSL输出的一个或多个图像可以最终被选择用于生成对象识别注释。
在某些实施例中,主车辆1的控制系统10可以进一步被配置成将自动生成的图像注释传输到远程服务器15,用于形成用于对象识别的ML算法的训练数据集。
附加地或可替代地,主车辆1的控制系统10可以进一步被配置成利用自动生成的图像注释来形成用于为对象识别而配置的ML算法的训练数据集。所形成的用于ML算法的训练数据集可以被传输到远程服务器15,用于集中训练ML算法。
附加地或可替代地,所形成的训练数据集可以被控制系统10用于训练ML算法和神经网络,用于在主车辆1中执行的去中心联邦学习设定中的对象识别。因此,将通过基于在主车辆1中形成的自动图像注释和训练数据集更新ML算法的一个或多个模型参数来训练ML算法。这样,ML算法将在包括联邦或群体学习方案的被称为边缘训练设定的设定中被训练。为此,控制系统10可以进一步被配置用于将ML算法的一个或多个更新后的模型参数传输到远程服务器15并且从远程服务器15接收ML算法的全球更新后的模型参数的集合。全球更新后的参数的集合可以基于包括从多个车辆1、2(即,车队)获得的ML算法的一个或多个更新后的模型参数的信息。控制系统10可以进一步被配置成基于从远程服务器15接收的全球更新后的模型参数的集合来更新ML算法。通过这种方式,提供了连续且高效地将ML算法更新为更准确的预测模型的更有效的方式。
在某些实施例和方面中,控制系统10可以进一步被配置成从远程服务器获得注释图像的更新后的有限子集,该更新后的有限子集利用为至少一个对象的一个或多个标记图像生成的对象识别注释来更新。附加地或可替代地,控制系统10可以被配置成利用为至少一个对象的一个或多个标记图像生成的对象识别注释来更新注释图像的有限子集。这样,在至少一个目标对象类别或多个目标对象类别被包括在支持集中的情况下,利用关于它们的新信息不断更新支持集。每一个新关联的对象及其相应的目标对象类别将被用于改进和补充有限子集,该子集又可以被迭代地用于其它对象的识别和分类。
图2是示出被部署在车辆1中或包括多个车辆1、2的车队的每一个车辆中的FSL模型的示意性框图。FSL模型207被配置成提供预测(即,至少一个对象4a、4b与所获得的其相应的目标对象类别205的注释图像的有限子集203之间的初步关联)209。由车辆1的传感器系统320检测到的对象4a、4b的一个或多个图像201以及有限子集203作为输入被提供到FSL模型207。在某些实施例和方面中,由传感器系统320捕获的一个或多个图像201可以实时(即,以在线模式)提供到FSL模型207。在某些实施例中,附加地或可替代地,由传感器系统320捕获的一个或多个图像201可以被存储在车辆1的存储器12中,并且因此先前捕获的一个或多个图像可以从存储器12中获得,以在离线模式下作为输入提供到FSL模型207。在某些实施例中,附加地或可替代地,由传感器系统320捕获的一个或多个图像201可以被传输到远程服务器15。由传感器系统320捕获的一个或多个图像201可以被存储在远程服务器15的中央数据库中,并且因此先前捕获的一个或多个图像可以从远程服务器15获得,以在离线模式下作为输入提供到FSL模型207。FSL模型可以被至少部分地部署在车辆1中。附加地或可替代地,FSL模型可以被部署在远程服务器15中,并且可以在离线模式下处理所获得的一个或多个图像。
基于确定对象4a、4b与目标对象类别205之间的初步关联的FSL模型的预测209,对象4a、4b的一个或多个图像201被标记211为候选,并且稍后被注释213以确定对象4a、4b属于相应的目标对象类别205。注释的一个或多个图像可以用于形成用于训练215被配置用于对象识别的ML算法的训练数据。在图3中的方法400的流程图中进一步阐述了图2的框图中呈现的技术的详细实施例。
图3示出了根据本公开的各个方面和实施例的用于确定至少一个对象与目标对象类别的关联的方法400的流程图,其中至少一个对象4a、4b存在于在道路22上行驶的车辆1的周围环境中。如参考图1的示例所示,至少一个对象4a、4b存在于车辆1、2在其上行驶的道路22的图示部分24中。
方法400包括从车辆1的传感器系统320获得401传感器数据,传感器数据包括由车载相机捕获的车辆的周围环境的一个或多个图像。方法400进一步包括基于获得的传感器数据来确定403至少一个对象4a、4b在车辆1的周围环境中的存在。此外,方法400包括获得405至少表示目标对象类别的注释图像的有限子集,该有限子集包括比阈值数量小的数量的注释图像。方法400进一步包括基于所获得的包括至少一个对象4a、4b的一个或多个图像的传感器数据以及所获得的注释图像的有限子集来确定407该至少一个对象4a、4b与目标对象类别之间的初步关联。当该至少一个对象4a、4b与目标对象类别之间的初步关联被确定时,方法400进一步包括为至少一个对象4a、4b的一个或多个图像产生409图像标签,以获得指示该至少一个对象4a、4b与目标对象类别的初步关联的一个或多个标记图像。
在某些实施例和方面中,方法400可以进一步包括通过小样本学习模型来确定407至少一个对象4a、4b与目标对象类别之间的初步关联。
相应地,方法400进一步包括选择411一个或多个标记图像,用于为一个或多个标记图像生成相应的对象识别注释。在该至少一个对象4a、4b与目标对象类别之间的初步关联没有被确定的实例中,方法400可以相应地返回到获得其它传感器数据或先前的方法步骤中的任一个。在某些方面和实施例中,方法400可以由车辆1的包括处理电路11的控制系统10执行,该处理电路11被配置用于执行方法400的各种实施例和步骤。
因此,应注意,先前参考控制系统10或控制系统10的处理电路11以及图1至图2描述的所有实施例、元件、特征、示例和优点类似地且同等地适用于在本文中参考图3描述的方法400的各种实施例。
根据一些实施例,至少一个对象4a、4b可以包括包含交通标志或交通信号的至少一个路侧交通对象。
根据某些实施例,方法400可以进一步包括将所选择的该至少一个对象的一个或多个标记图像传输413到远程服务器15并且/或者将所选择的一个或多个标记图像存储415在车辆1的存储器12中用于随后传输到远程服务器15。所传输的所选择的一个或多个标记图像可以在远程服务器15处被利用,以至少基于来自主车辆的至少一个对象的所传输的一个或多个标记图像来生成417相应的对象识别注释。可以手动地或自动地在远程服务器15处生成相应的对象识别注释。
在本文中的实施例和方面中,至少一个对象4a、4b与其相应的目标对象类别的初步关联可以被链接到置信度或确定性度量,该置信度或确定性度量将在手动地或自动地注释标记图像的后续步骤中被验证。
因此,利用相关联的确定性度量来验证至少一个对象4a、4b属于在步骤407处初步确定的相应的目标对象类别。基于所验证的至少一个对象4a、4b与目标对象类别的关联,生成该至少一个对象4a、4b的相应的对象识别注释。如前所述,验证至少一个对象与目标对象类别之间的关联的步骤可以至少部分地手动地或自动地执行,并且也可以是被包括在为该至少一个对象4a、4b的一个或多个标记图像生成相应的对象识别注释的过程中的步骤。换句话说,为一个或多个标记图像生成相应的对象识别注释指示经验证的至少一个对象到其相应的目标对象类别的关联。
在某些实施例中,方法400可以进一步包括将所选择的一个或多个标记图像存储415在车辆1的存储器12中以及为至少一个对象的一个或多个标记图像生成417相应的对象识别注释。这样,由车辆1的控制系统10以自动方式执行经验证的该至少一个对象到其项应的目标对象类别的关联以及为该至少一个对象的一个或多个标记图像生成相应的对象识别注释。因此,用于至少一个对象的一个或多个图像的相应的对象识别注释由主车辆1自动地生成,然后这些注释可以用于形成ML算法的训练数据集。
在某些实施例中,方法400可以进一步包括从远程服务器15和/或从在道路22上行驶的多个车辆1、2获得419所选择的该至少一个对象4a、4b的一个或多个标记图像的集合。在这种情况下,所选择的该至少一个对象4a、4b的一个或多个标记图像的集合包括由多个车辆1、2中的每一个车辆产生和选择的该至少一个对象4a、4b的一个或多个标记图像。方法400可以进一步包括基于所获得的由多个车辆1、2提供的所选择的该至少一个对象4a、4b的一个或多个标记图像的集合来生成417相应的对象识别注释。这样,获得419由车辆1、2的车队产生的关于该至少一个对象4a、4b的累加信息,并且利用该累加信息基于所获得的所选择的该至少一个对象4a、4b的一个或多个标记图像的集合来生成417该至少一个对象4a、4b的相应的对象识别注释。有利地,基于用于确定至少一个对象与相应的目标对象类别的关联以及用于生成至少一个对象4a、4b的注释图像的车队信息,实现了较高的确定性。在各个方面和实施例中,方法400可以附加地包括形成421用于机器学习算法的训练数据集,该机器学习算法被配置用于基于所生成的对象识别注释来识别至少一个对象。因此,主车辆1可以生成用于ML算法的训练数据集,其中ML算法将被配置用于对象的识别(例如,用于至少一个对象4a、4b的识别)。
在某些实施例和方面中,方法400可以进一步包括将生成的对象识别注释传输423到远程服务器15,用于形成421用于ML算法的训练数据集。这样,所形成的训练数据集可以用于在远程服务器15处集中训练425ML算法。
更进一步,在一些实施例中,方法400可以进一步包括通过基于所形成的训练数据集更新ML算法的一个或多个模型参数来在主车辆1中执行的去中心联邦学习设定中训练425ML算法。
在某些实施例和方面中,方法400可以进一步包括从远程服务器15获得429注释图像的利用为至少一个对象的一个或多个标记图像生成的对象识别注释进行更新427的更新后的有限子集。附加地或可替代地,方法400可以包括利用为至少一个对象的一个或多个标记图像生成的对象识别注释来更新427注释图像的有限子集。这样,支持集利用新信息(即,新分类的对象及其各自的至少一个目标对象类别或多个目标对象类别(在一些实例中,这些目标对象类别被包括在支持集中))来连续地更新。每一个新关联的对象及其相应的目标对象类别被用于改进和补充有限子集,该子集又可以被迭代地用于其它对象的识别和分类。更新有限子集的步骤可以在远程服务器15中执行,并且可以与车辆1、2通信。因此,FSL模型可以以在线模式(即,随着每一个新的对象被实时分类并添加到支持集而连续地)更新。附加地或可替代地,FSL模型可以在稍后的实例中或以离线模式(即,其中利用分类的新对象被更新的支持集被部署在车辆1、2中并以特定的时间间隔上传到FSL模型,利用定期安排的更新等)利用新的信息和更新后的支持集来更新。
类似地,在某些实施例中,除了在远程服务器15中更新427支持集之外或者作为其替代,支持集可以至少部分地在车辆1、2中更新。同样,由车辆1、2的控制系统10执行的具有新分类的新对象的支持集的更新427可以以在线模式或离线模式执行。
用于执行方法400的这些功能和实施例的可执行指令可选地被包括在非暂时性计算机可读存储介质或被配置成由一个或多个处理器执行的其它计算机程序产品中。
图4是包括也可以称为控制装置或设备10或简称为装置10的控制系统10的配备有ADS的车辆1的示意图。如在本文中使用的,“车辆”是任何形式的机动化运输工具。例如,车辆1可以是任何道路车辆(例如,小汽车(如本文中所示)、摩托车、(货运)卡车、公共汽车等)。
装置10包括控制电路11和存储器12。控制电路11可以在物理上包括一个单电路装置。可替代地,控制电路11可以分布在某些电路装置上。作为示例,装置10可以与车辆1的其它部分(例如,ADS 310)共享其控制电路11。此外,控制系统10可以形成ADS 310的一部分,即,控制系统10可以被实现为ADS的模块或特征。控制电路11可以包括诸如中央处理单元(CPU)、微控制器或微处理器的一个或多个处理器。一个或多个处理器可以被配置成执行在存储器12中存储的程序代码,以执行除了在本文中公开的方法之外的车辆1的各种功能和操作。处理器可以是或可以包括用于进行数据或信号处理或者用于执行在存储器12中存储的计算机代码的任何数量的硬件部件。存储器12可选地包括诸如DRAM、SRAM、DDR RAM或其它随机存取固态存储器装置的高速随机存取存储器,并且可选地包括诸如一个或多个磁盘存储装置、光盘存储装置、闪存装置或其它非易失性固态存储装置的非易失性存储器。存储器12可以包括数据库部件、目标代码部件、脚本部件或用于支持当前描述的各种活动的任何其它类型的信息结构。
在所示的示例中,存储器12进一步存储地图数据308。地图数据308可以例如由车辆1的ADS 310使用,以执行车辆1的自主功能。地图数据308可以包括高清(HD)地图数据。即使被示为与ADS 310分离的元件,存储器12也有望可以被提供为ADS 310的集成元件。换句话说,根据示例性实施例,在本发明概念的实现中可以利用任何分布式或本地存储装置。类似地,控制电路11可以是分布式的,例如使得控制电路11的一个或多个处理器被提供为ADS310或车辆1的任何其它系统的集成元件。换句话说,根据示例性实施例,在本发明概念的实现中可以利用任何分布式或本地控制电路装置。ADS 310被配置成执行车辆1的自主或半自主功能的功能和操作。ADS 310可以包括多个模块,其中每一个模块负责ADS 310的不同功能。
车辆1包括在自主或半自主车辆中常见的多个元件。将理解,车辆1可以具有图4所示的各种元件的任何组合。此外,车辆1可以包括除了图4中所示的元件之外的其它元件。虽然各种元件在本文中被示出为位于车辆1的内部,但是元件中的一个或多个可以位于车辆1的外部。例如,地图数据308可以被存储在远程服务器中,并且可以由车辆1的各种部件经由通信系统326访问。此外,即使各种元件在本文中以某种布置来描述,各种元件也可以以不同的布置来实施,这是本领域技术人员容易理解的。还应注意,各种元件可以以任何合适的方式彼此通信地连接。图4的车辆1应仅被视为说明性的示例,因为车辆1的元件可以以某些不同的方式实现。
车辆1进一步包括传感器系统320。传感器系统320被配置成获取关于车辆本身或其周围环境的传感器数据。传感器系统320可以例如包括被配置成收集车辆1的地理位置数据的全球导航卫星系统(GNSS)模块322(例如,GPS)。传感器系统320可以进一步包括一个或多个传感器324。传感器324可以是任何类型的车载传感器(例如,相机、激光雷达和雷达、超声波传感器、陀螺仪、加速度计、里程表等)。应理解,传感器系统320还可以提供直接获取传感器数据或经由车辆1中的专用传感器控制电路获取传感器数据的可能性。
车辆1进一步包括通信系统326。通信系统326被配置成与外部单元(例如,其它车辆(即,经由车辆到车辆(V2V)通信协议)、远程服务器(例如,云服务器)、数据库或其它外部装置(即,车辆到基础设施(V2I)或车辆到一切(V2X)通信协议))通信。通信系统326可以使用一种或多种通信技术进行通信。通信系统326可以包括一个或多个天线(未示出)。蜂窝通信技术可以用于与诸如远程服务器或云计算系统远程通信。此外,如果所使用的蜂窝通信技术具有低延迟,那么其也可以用于V2V、V2I或V2X通信。蜂窝无线电技术的示例是GSM、GPRS、EDGE、LTE、5G、5G NR等,也包括未来的蜂窝解决方案。然而,在一些解决方案中,中短程通信技术(例如,无线局域网(LAN)(例如,基于IEEE 802.11的解决方案))可以用于与车辆1附近的其它车辆或与本地基础设施元件通信。ETSI正在制定用于车辆通信的蜂窝标准,并且例如,5G由于高带宽和通信信道的低延迟和高效处理而被视为合适的解决方案。
通信系统326可以相应地借助于一个或多个天线提供向远程位置(例如,远程操作者或控制中心)发送输出并且/或者从远程位置接收输入的可能性。此外,通信系统326可以进一步被配置成允许车辆1的各种元件彼此通信。作为示例,通信系统326可以提供本地网络设置(例如,CAN总线、I2C、以太网、光纤等)。车辆1内的本地通信也可以是具有诸如WiFi、LoRa、Zigbee、蓝牙或类似中/短程技术的协议的无线类型。
车辆1进一步包括操纵系统328。操纵系统328被配置成控制车辆1的操纵。操纵系统328包括被配置成控制车辆1的前进方向的转向模块330。操纵系统328进一步包括被配置成控制车辆1的节气门的致动的节气门模块332。操纵系统328进一步包括被配置成控制车辆1的制动器的致动的制动模块334。操纵系统328的各种模块也可以接收来自主车辆1的驾驶者(即,分别来自方向盘、油门踏板和刹车踏板)的手动输入。然而,操纵系统328可以可通信地连接到车辆1的ADS 310,以接收关于操纵系统328的各种模块应当如何动作的指令。因此,ADS 310可以例如经由决策和控制模块318来控制车辆1的操纵。
ADS 310可以包括定位模块312或定位块/系统。定位模块312被配置成确定和/或监控车辆1的地理位置和前进方向,并且可以利用来自传感器系统320的数据(诸如来自GNSS模块322的数据)。可替代地或以组合方式,定位模块312可以利用来自一个或多个传感器324的数据。可替代地,定位系统可以被实现为实时动态(Real Time Kinematics,RTK)GPS,以提高精度。
ADS 310可以进一步包括感知模块314或感知块/系统。感知模块314可以指任何公知的模块和/或功能(例如,被包括在车辆1的一个或多个电子控制模块和/或节点中,适用于和/或被配置成解释与车辆1的驾驶相关的传感器数据以识别例如障碍物、车道、相关标志、合适的导航路径等)。因此,感知模块314可以适用于依赖并获得来自多个数据源(例如,汽车成像、图像处理、计算机视觉和/或车内联网等)的输入并结合例如来自传感器系统320的传感器数据。
定位模块312和/或感知模块314可以可通信地连接到传感器系统320,以从传感器系统320接收传感器数据。定位模块312和/或感知模块314可以进一步向传感器系统320发送控制指令。ADS 310还可以包括诸如路径规划模块316的其它模块。
上面已经参考具体实施例介绍了本发明。然而,除了上述之外的其它实施例也是可能的并且在本发明的范围内。在本发明的范围内,可以提供与上述不同的方法步骤,从而通过硬件或软件执行该方法。因此,根据示例性实施例,提供了存储被配置成由车辆控制系统的一个或多个处理器执行的一个或多个程序的非暂时性计算机可读存储介质,该一个或多个程序包括用于执行根据上述实施例中任一个的方法的指令。可替代地,根据另一示例性实施例,云计算系统可以被配置成执行在本文中给出的任何方法。云计算系统可以包括在一个或多个计算机程序产品的控制下共同执行在本文中提出的方法的分布式云计算资源。
一般而言,计算机可访问介质可以包括任何有形的或非暂时性的存储介质或存储器介质(例如,电子、磁性或光学介质(例如,经由总线耦接到计算机系统的磁盘或CD/DVD-ROM))。如在本文中使用的,术语“有形的”和“非暂时性的”旨在描述计算机可读存储介质(或“存储器”)而不包括传播电磁信号,而且不旨在以其它方式限制由短语计算机可读介质或存储器包含的物理计算机可读存储装置的类型。例如,术语“非暂时性计算机可读介质”或“有形的存储器”旨在包含不一定永久地存储信息的存储装置的类型,例如,包括随机存取存储器(RAM)。以非暂时性的形式存储在有形的计算机可访问存储介质上的程序指令和数据可以通过传输介质或信号(例如,电信号、电磁信号或数字信号)被进一步传输,这些信号可以经由诸如网络和/或无线链路的通信介质来传输。
如前所述,应理解,所描述的解决方案的部分可以在车辆1中、在位于车辆1外部的系统中或在车辆内部和外部的组合中实现;例如,所描述的解决方案的部分可以在与车辆通信的服务器15中实现,所谓的云解决方案。实施例的不同特征和步骤可以以与所描述的组合不同的其它组合来组合。
应注意,任何附图标记不限制权利要求的范围,本发明可以至少部分地借助于硬件和软件两者来实现,并且某些“装置”或“单元”可以由硬件的同一项表示。
尽管附图可以示出方法步骤的特定顺序,但是这些步骤的顺序可以与所描述的顺序不同。此外,可以同时或部分地同时执行两个或更多个步骤。这样的变型将取决于所选择的软件和硬件系统以及设计者的选择。所有这样的变型都在本发明的范围内。上文提到和描述的实施例仅作为示例给出,并且不应限制本发明。在专利权利要求中要求的本发明范围内的其它解决方案、用途、目标和功能对于本领域技术人员来说应是显而易见的。
Claims (14)
1.一种用于确定至少一个对象与目标对象类别的关联的方法,所述至少一个对象存在于在道路上行驶的车辆的周围环境中,所述方法包括:
从所述车辆的传感器系统获得传感器数据,所述传感器数据包括由车载相机捕获的所述车辆的所述周围环境的一个或多个图像;
基于获得的所述传感器数据来确定所述至少一个对象在所述车辆的所述周围环境中的存在;
获得至少表示所述目标对象类别的注释图像的有限子集,所述有限子集包括比阈值数量小的数量的注释图像;
基于获得的包括所述至少一个对象的一个或多个图像的所述传感器数据和获得的所述注释图像的有限子集来确定所述至少一个对象与所述目标对象类别之间的初步关联;以及
当所述初步关联被确定时:
为所述至少一个对象的所述一个或多个图像产生图像标签,以获得指示所述至少一个对象与所述目标对象类别的所述初步关联的一个或多个标记图像;以及
选择所述一个或多个标记图像用于为所述一个或多个标记图像生成相应的对象识别注释。
2.根据权利要求1所述的方法,其中,所述至少一个对象包括包含交通标志或交通信号的至少一个路侧交通对象。
3.根据权利要求1所述的方法,其中,所述方法进一步包括:
将选择的所述至少一个对象的所述一个或多个标记图像传输到远程服务器,并且/或者将选择的所述一个或多个标记图像存储在所述车辆的存储器中用于随后传输到所述远程服务器,以用于至少基于从所述车辆传输的所述至少一个对象的所述一个或多个标记图像来生成所述相应的对象识别注释。
4.根据权利要求1所述的方法,其中,所述方法进一步包括:
将选择的所述一个或多个标记图像存储在所述车辆的存储器中;以及
为所述至少一个对象的所述一个或多个标记图像生成所述相应的对象识别注释。
5.根据权利要求4所述的方法,其中,所述方法进一步包括:
从远程服务器和/或从在所述道路上行驶的多个车辆获得选择的所述至少一个对象的一个或多个标记图像的集合,其中,选择的所述至少一个对象的一个或多个标记图像的所述集合包括所述至少一个对象的由所述多个车辆中的每一个车辆产生和选择的所述一个或多个标记图像;以及
基于获得的选择的所述至少一个对象的所述一个或多个标记图像的所述集合来生成所述相应的对象识别注释。
6.根据权利要求4或5所述的方法,其中,所述方法进一步包括:
形成用于机器学习ML算法的训练数据集,所述机器学习ML算法被配置用于基于生成的所述对象识别注释来识别所述至少一个对象;或者
将生成的所述对象识别注释传输到远程服务器用于形成用于所述机器学习ML算法的所述训练数据集。
7.根据权利要求3至5中的任一项所述的方法,其中,所述方法进一步包括:
从所述远程服务器获得注释图像的更新后的有限子集,所述更新后的有限子集利用为所述至少一个对象的所述一个或多个标记图像而生成的所述对象识别注释来更新;或者
利用为所述至少一个对象的所述一个或多个标记图像而生成的所述对象识别注释来更新注释图像的所述有限子集。
8.根据权利要求1所述的方法,其中,所述方法进一步包括:
使用小样本学习模型来确定所述至少一个对象与所述目标对象类别之间的所述初步关联。
9.根据权利要求1所述的方法,其中,所述车辆包括自动驾驶系统ADS。
10.根据权利要求1所述的方法,其中,所述方法由车辆的处理电路执行。
11.一种包括指令的非暂时性计算机可读存储介质,所述指令在由车载计算机的一个或多个处理器执行时促使所述车载计算机执行根据权利要求1所述的方法。
12.一种用于确定至少一个对象与目标对象类别的关联的系统,所述至少一个对象存在于在道路上行驶的车辆的周围环境中,所述系统包括处理电路,所述处理电路被配置成:
从所述车辆的传感器系统获得传感器数据,所述传感器数据包括由车载相机捕获的所述车辆的所述周围环境的一个或多个图像;
基于获得的所述传感器数据来确定所述至少一个对象在所述车辆的所述周围环境中的存在;
获得至少表示所述目标对象类别的注释图像的有限子集,所述有限子集包括比阈值数量小的数量的注释图像;
基于获得的包括所述至少一个对象的一个或多个图像的所述传感器数据和获得的所述注释图像的有限子集来确定所述至少一个对象与所述目标对象类别之间的初步关联;以及
当所述初步关联被确定时:
为所述至少一个对象的所述一个或多个图像产生图像标签,以获得指示所述至少一个对象与所述目标对象类别的所述初步关联的一个或多个标记图像;以及
选择所述一个或多个标记图像用于为所述一个或多个标记图像生成相应的对象识别注释。
13.根据权利要求12所述的系统,其中,所述处理电路进一步被配置成:
将选择的所述至少一个对象的所述一个或多个标记图像传输到远程服务器,并且/或者将选择的所述一个或多个标记图像存储在所述车辆的存储器中用于随后传输到所述远程服务器,以用于至少基于从所述车辆传输的所述至少一个对象的所述一个或多个标记图像来生成所述相应的对象识别注释。
14.一种车辆,包括:
一个或多个车载传感器,被配置成监控所述车辆的周围环境;
定位系统,被配置成监控所述车辆的地理位置;以及
根据权利要求12所述的系统。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP22216820.5 | 2022-12-27 | ||
EP22216820.5A EP4394626A1 (en) | 2022-12-27 | 2022-12-27 | Classification of objects present on a road |
Publications (1)
Publication Number | Publication Date |
---|---|
CN118262298A true CN118262298A (zh) | 2024-06-28 |
Family
ID=84604225
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311813376.XA Pending CN118262298A (zh) | 2022-12-27 | 2023-12-26 | 存在于道路上的对象的分类 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20240212319A1 (zh) |
EP (1) | EP4394626A1 (zh) |
CN (1) | CN118262298A (zh) |
-
2022
- 2022-12-27 EP EP22216820.5A patent/EP4394626A1/en active Pending
-
2023
- 2023-12-26 US US18/396,315 patent/US20240212319A1/en active Pending
- 2023-12-26 CN CN202311813376.XA patent/CN118262298A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
EP4394626A1 (en) | 2024-07-03 |
US20240212319A1 (en) | 2024-06-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11294387B2 (en) | Systems and methods for training a vehicle to autonomously drive a route | |
US11710324B2 (en) | Systems and methods for improving the classification of objects | |
US20230260261A1 (en) | Prediction error scenario mining for machine learning models | |
US11904854B2 (en) | Systems and methods for modeling pedestrian activity | |
US20210300356A1 (en) | Vehicle uncertainty sharing | |
US20220266856A1 (en) | Platform for perception system development for automated driving systems | |
CN116783105A (zh) | 自主车辆的车载反馈系统 | |
US20230365154A1 (en) | Determining a state of a vehicle on a road | |
US20230090338A1 (en) | Method and system for evaluation and development of automated driving system features or functions | |
US11983918B2 (en) | Platform for perception system development for automated driving system | |
CN116394954A (zh) | 用于车辆的假设推理 | |
US11610412B2 (en) | Vehicle neural network training | |
CN115390868A (zh) | 自动驾驶系统感知的开发 | |
EP4394626A1 (en) | Classification of objects present on a road | |
EP4394664A1 (en) | Automated data generation by neural network ensembles | |
EP4431974A1 (en) | Generating representation of a surrounding environment of a vehicle | |
US20240135252A1 (en) | Lane-assignment for traffic objects on a road | |
US20240233390A9 (en) | Identification of unknown traffic objects | |
EP4361967A1 (en) | Situation specific perception capability for autonomous and semi-autonomous vehicles | |
US11727671B1 (en) | Efficient and optimal feature extraction from observations | |
US20230084623A1 (en) | Attentional sampling for long range detection in autonomous vehicles | |
US20240140486A1 (en) | Methods and apparatuses for closed-loop evaluation for autonomous vehicles | |
US20230024799A1 (en) | Method, system and computer program product for the automated locating of a vehicle | |
CN115840636A (zh) | 用于自动驾驶系统特征的评估和开发的方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |