CN116324904A - 用于注释传感器数据的方法和系统 - Google Patents

用于注释传感器数据的方法和系统 Download PDF

Info

Publication number
CN116324904A
CN116324904A CN202180067282.5A CN202180067282A CN116324904A CN 116324904 A CN116324904 A CN 116324904A CN 202180067282 A CN202180067282 A CN 202180067282A CN 116324904 A CN116324904 A CN 116324904A
Authority
CN
China
Prior art keywords
objects
point cloud
sensor
data
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180067282.5A
Other languages
English (en)
Inventor
D·勒德勒
P·托马斯
S·罗曼斯基
G·乌鲁莫夫
T·比斯特
R·雅各布
B·纽伯特
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Desbeth Co ltd
Original Assignee
Desbeth Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Desbeth Co ltd filed Critical Desbeth Co ltd
Publication of CN116324904A publication Critical patent/CN116324904A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S17/00Systems using the reflection or reradiation of electromagnetic waves other than radio waves, e.g. lidar systems
    • G01S17/88Lidar systems specially adapted for specific applications
    • G01S17/89Lidar systems specially adapted for specific applications for mapping or imaging
    • G01S17/8943D imaging with simultaneous measurement of time-of-flight at a 2D array of receiver pixels, e.g. time-of-flight cameras or flash lidar
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S17/00Systems using the reflection or reradiation of electromagnetic waves other than radio waves, e.g. lidar systems
    • G01S17/88Lidar systems specially adapted for specific applications
    • G01S17/93Lidar systems specially adapted for specific applications for anti-collision purposes
    • G01S17/931Lidar systems specially adapted for specific applications for anti-collision purposes of land vehicles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • G06V10/12Details of acquisition arrangements; Constructional details thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/803Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of input or preprocessed data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • G06V20/584Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads of vehicle lights or traffic lights

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Electromagnetism (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Image Analysis (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明涉及用于注释驾驶场景传感器数据的计算机实现的方法,该方法包括下列步骤:接收传感器原始数据,其中,传感器原始数据包括激光雷达传感器的多个依次相继的点云和/或一个或多个相机的多个依次相继的图像;在使用一个或多个神经网络的情况下识别在每个图像中的对象和/或每个点云中的对象;将依次相继的图像和/或点云内的对象关联;基于合理性标准去除假阳性结果;和输出驾驶场景的经注释的传感器数据。

Description

用于注释传感器数据的方法和系统
技术领域
本发明涉及一种用于自动注释驾驶场景的传感器数据的计算机实现的方法、一种计算机能读取的数据载体和一种计算机系统。
背景技术
自主驾驶有望在日常交通中实现前所未有的舒适性和安全性。尽管各企业进行了巨大的投资,但现有方案仍仅能在有限的条件下使用或者只能实现部分真正自主行为。对此的一个原因是缺少足够数量的驾驶场景和缺少驾驶场景的多样化。为了训练自主驾驶功能,需要来自驾驶场景的经注释的传感器数据。也被称为数据富集的一种常见的数据注释方案,使用大量员工来人工注释每个图像。因此传统的数据富集方法极为耗时、易于出错并且因此极其昂贵。
一种包括关键帧注释和内插/外插的半自动的方案,提供了一定程度的、即有限的改进。这被示意性地在图2中示出并且包括选择一定数量的图像作为关键帧,借助传播/外插对所述关键帧进行人工注释。在人工处理关键帧之后,通过内插生成对中间帧的注释。因此通过人识别关键帧上的对象,人还借助外插将相关的对象链接起来。内插过程然后使用这些信息,即对象识别和对象链接,以便为关键帧之间的所有帧上的同一对象生成注释。理论上可以通过加大关键帧之间的间距来提高这种机制的效率,因为这样就会自动创建更多的注释。不过关键帧之间的间距越大,所需的人工修正的就会急剧增加。例如仅在非关键帧上能短暂看到的对象,必须通过人工干预进行覆盖。这种自动化方案在此很快就会达到其极限。
因此用传统的注释策略只能处理小型至中型的数据富集项目,其它更高级的功能,如自主驾驶功能的验证、数据的选择或场景库的创建,则由于巨大的人工耗费和与之相关联的成本而无法实现。
发明内容
因此本发明的任务是,提供一种用于注释驾驶场景传感器数据的经改进的方法;尤为值得期望的是一种对人为干预的需求最小/极小的自动注释方法。
该任务通过一种按照权利要求1所述的用于注释驾驶场景传感器数据的方法、一种按照权利要求11所述的能计算机读取的数据载体和一种按照权利要求12所述的计算机系统解决。有利的扩展设计方案是从属权利要求的主题。
因此提供了一种用于注释驾驶场景传感器数据的计算机实现的方法,该方法包括下列步骤:
·接收传感器原始数据,其中,传感器原始数据包括多个依次相继的激光雷达点云和/或多个依次相继的相机图像,
·在使用一个或多个神经网络的情况下识别相机数据的每个图像中和/或每个点云中的对象,其中,为所识别的对象优选地配设对象类别、对象位置、对象尺寸和/或对象范围,特别是包围该对象的边界框的坐标,
·将依次相继的图像和/或点云内的对象相关联,
·基于合理性标准去除假阳性结果,并且
·输出驾驶场景的经注释的传感器数据。
用于对象识别的神经网络可以有利地就高召回率(Recall),即就识别尽可能高百分比的实际存在的对象加以优化,因为之后基于合理性标准对假阳性结果的去除在无需人工干预的情况下有效地将误识别减少到最低限度。
本发明基于的思考是,可以借助一系列步骤/技术有效地利用从一次拍摄的各个图像中的对象的时间关联性推导出的语义信息。在此先识别也相宜地通过一系列图像加以追踪或相互关联的对象。所使用的技术还包括去除假阳性结果(在假阳性结果中对象被错误地识别)、填补空缺、通过回归优化对象尺寸和对象位置以及平滑轨迹。一些步骤/技术,如对象尺寸和/或对象位置的回归,可以是可选的。
本发明引入了一种范式转变,在范式转变中,在前期自动完成注释并且只需要指导性的质量控制就能成功完成项目。通过将自动的注释方法自动地用于原始数据,可以
-快得多地(更好的项目周转时间)、
-以更低的成本(需要更少的人工耗费)、
-以始终不变的质量
创建高质量的注释。与之相反的是,按现有技术的注释基于来自低薪国家的劳动力,在这些劳动力中,大量经验很少的人员从事创建注释的工作。这通常会导致严重的质量问题和巨大的后处理周期,它们进一步拖延了项目并且提高了成本。
用按本发明的方法达到了新的质量程度、一致性程度和自动化程度,具有比迄今为止的注释方法高得多的生产率。只有质量保障须由人工劳动力负责,这导致了成本的大幅降低。
由此能大规模执行此前由于人工注释的成本而无法实现的项目,但也可以更为有利地执行诸如数据选择之类的高级功能,因为注释仅还是一个计算时间的问题并且不再是人工耗费的问题。因此所有的原始数据均可以提前进行注释,以便然后基于注释选出令人感兴趣的场景。用于质量保障的人工耗费在接下来的步骤中只适用于令人感兴趣的数据。
在本发明的一种优选的实施方式中,传感器原始数据包括激光雷达点云,其中,激光雷达点云被划分成至少两个区,其中,在第一区中使用第一架构的神经网络,并且在第二区中使用第二架构的神经网络,其中,第一架构不同于第二架构。自动选择使得所使用的神经网络能优化地与要求相适应。
在本发明的一种特别优选的实施方式中,第一区包括采集了传感器原始数据的测量车辆的附近的周围环境,而第二区具有与测量车辆的最小间距,其中,优选地,针对用于对象识别的神经网络,在第一区中使用基于中心点的架构,并且在第二区中使用基于PointRCNN的架构。在通常仅具有很少的测量点的较远的对象中,带有PointRCNN架构的神经网络使得能生成有合适的尺寸的边界框。在近距离区域中,中心点架构的神经网络使得能更好地在不同的对象类别之间进行区分。因此人工修正耗费被降低到最低限度。
在本发明的一种优选的实施方式中,所述方法还额外包括在关联对象之前去除重复物,其中,去除重复物优选基于重叠标准和/或神经网络的置信水平。当两个边界框具有相当大的重叠时(这可以通过与如0.98这样的阈值的比较来确定),它们涉及到同一对象。也可以额外规定,仅丢弃具有低置信水平的对象。置信水平可以用专门训练的网络来确定或者通过用于对象识别的网络的说明来近似。
在本发明的一种特别优选的实施方式中,去除图像和/或点云内识别到的对象的重复物,其中,针对两个重叠的对象,即以第一置信水平识别到的第一对象和以第二置信水平识别到的第二对象(其中,第一置信水平高于第二置信水平),检查重叠、特别是交并比是否超过预定的阈值,并且在这种情况下,第二对象被作为重复物丢弃。原则上也可以任意选择有待丢弃的重复物。
在本发明的一种优选的实施方式中,关联对象包括在依次相继的帧中、即图像和/或点云中的对象的链接,其中,当对象属于同一对象类别并且重叠、特别是交并比超过了预定的阈值时,在第一帧中的对象就与在第二帧中的对象关联。因为激光雷达传感器、特别是相机每秒执行许多次测量,所以车辆的周围环境通常会逐渐变化。通过观察在依次相继的帧之间的时间关联性,可以获得进一步的信息和/或检查对象识别的合理性。
在本发明的一种特别优选的实施方式中,关联对象包括借助高斯过程简化(Gauβschen Prozessreduktion)或卡尔曼滤波来预测对象在随后的图像和/或随后的点云上的位置,和/或借助因子图、即用于因子化概率分布的二分图追踪依次相继的图像中的对象。所述方法对于确定关联性特别适宜。
特别优选在关联对象之后修正错过的对象,其中,观察多于两个的依次相继的帧,其中,当在第一帧中的对象与在第三帧中的对象关联,但没有识别到在中间帧中的对象时,就在第二帧中插入对象。也可以备选或补充性地规定:观察更多数量的依次相继的帧,由此也可以填补包括多个帧的空缺。错过的对象尤其可能由于遮挡或分离而产生。作为附加标准也可以规定,仅当在相关的部位处或者在其周围环境中识别到另一个对象时,才填补由多于一个的帧构成的空缺。尤其可以借助观察所述另一个对象的边界框来确定,该另一个对象对遮挡而言是否足够大。
在本发明的一种优选的实施方式中,用于去除假阳性结果的合理性标准基于超过地面的高度、存在持续时间和/或神经网络的置信水平。如果在地表以下识别到超过预定的分数的对象,那么该对象就可以作为不合理的被丢弃。此外,如对象在地面以上被识别到超过了预定的阈值,那么该对象就可以作为不合理的被丢弃。可以根据对象类别来选择合理性标准和/或阈值。此外,如果对象具有极短的存在持续时间,即特别是只在一帧中识别到,但在相邻的帧中没有被识别到,那么可以将该对象作为不合理的而被丢弃。在考虑存在持续时间时,可以相宜地考虑到可能的遮挡。备选或补充性地,可以使对象作为不合理的加以丢弃取决于神经网络的置信水平,其中,尤其是可以只丢弃具有低置信水平的对象。置信水平可以用专门训练的网络来确定或者通过用于对象识别的网络的说明来近似。
在一种优选的实施方式中,所述方法还包括通过回归来优化相机数据的每个图像中和/或每个点云中的对象尺寸和/或对象位置。因为对象识别已经完成,所以可以就特别准确地确定边界框来优化评估。
在一种优选的实施方式中,所述方法还包括统一依次相继的图像中和/或点云中关联的对象的尺寸,其中,优选地,根据对象类别来实行或放弃对相关联的对象的尺寸的统一。例如在诸如轿车或牵引载重车之类的车辆方面必须存在保持不变的尺寸。通过统一尺寸,使对象更加自然。
有利的是,传感器原始数据包括激光雷达点云和同步采集的相机数据,其中,在考虑到激光雷达传感器和相机的相对空间取向的情况下进行对象的关联。因此可以优化地利用激光雷达传感器的空间信息和相机的较高的分辨率。
在一种优选的实施方式中,将用于识别属性的至少一个神经网络用于所识别的对象。优选地,借助相机图像确定至少一个属性、特别是车辆的闪光指示灯状态并且将所述属性配设给激光雷达点云中的对象。可以根据对象类别来选择所述至少一个属性和所述一个或所述多个用于识别的神经网络。如果既存在点云也存在相机图像,那么可以相宜地进行传感器融合,其中,将相机图像用于属性识别并且将属性配设给已融合的对象。
本发明还涉及一种计算机能读取的数据载体,其包含指令,当计算机系统的处理器实施指令时,所述指令就促使计算机系统实施按本发明的方法。
此外,本发明还涉及一种计算机系统,其包括处理器、人机接口和非易失存储器,其中,非易失存储器包含指令,当处理器实施指令时,所述指令就促使计算机系统实施按本发明的方法。
处理器可以涉及通用微处理器,其通常用作工作站计算机的中央处理单元,或者其可以包括一个或多个适用于执行专门的计算的处理元件,如图形处理单元。在本发明的备选的实施方式中,处理器可以被可编程逻辑组件、如现场可编程门阵列替代或补充,所述可编程逻辑组件被这样配置,使其能实施特定数量的运算,和/或包括Ip-Core微处理器。
附图说明
接下来参考附图更为详细地阐释本发明。在此,同样的部分用一致的名称标记。所示的实施方式被强烈地示意化,这就是说,间距和横向的以及垂直的尺寸都不是按比例的,并且倘若没有另行说明,彼此间也不具有能推导的几何关系。
图中:
图1是计算机系统的示例性的图表;
图2是半自动地借助关键帧注释的一定数量图像的示意图;
图3是用于注释驾驶场景传感器数据的按本发明的方法的一种实施方式的示意性的流程图;
图4是一定数量图像的示意图,在这些图像处进行自动的对象识别;
图5是一定数量图像的示意图,在这些图像处确定时间关联;
图6是一定数量依次相继的图像的示意图,所述一定数量依次相继的图像带有轨迹,在所述轨迹处可以进行广泛的评估;
图7是用于执行按本发明的方法的自动化系统的一种实施方式;
图8是用于自动训练属性检测器的方法的一种实施方式;和
图9是用于质量控制的用户界面的一种实施方式。
具体实施方式
图1示出了计算机系统的一种示例性的实施方式。
所示的实施方式包括主机PC,其带有监视器DIS和诸如键盘KEY和鼠标MOU之类的输入设备。
主机PC包括:带有一个或多个核的处理器CPU;具有随机访问的工作存储器RAM;以及一定数量的连接到本地总线(如PCI Express)上的设备,本地总线通过总线控制器BC与CPU交换数据。所述设备例如包括用于操控显示器的图形处理器GPU、用于连接外围设备的控制器USB、诸如硬盘或固态硬盘之类的非易失的存储器和网络接口NC。非易失的存储器可以包括指令,当由处理器CPU的一个或多个核处理指令时,所述指令促使计算机实施按本发明的方法。
在本发明的一种通过程式化的云在图中示出的实施方式中,主机可以包括一个或多个服务器,所述服务器包括一个或多个诸如处理器或FPGA之类的计算单元,其中,服务器通过网络与客户端连接,客户端包括显示装置和输入设备。因此用于产生仿真场景的方法可以部分或全部在远程服务器上实施,例如在云计算设置中。作为PC客户端的备选方案,仿真环境的图形用户界面可以在便携式计算机设备上、特别是笔记本或智能手机上显示。
在图2中示意性地示出了一定数量的依次相继的图像,所述图像半自动地借助关键帧进行注释。
第一、第三和第五幅图像分别涉及关键帧(通过粗体框表明),而第二和第四幅图像作为中间的图像加以处理(通过虚线框表明)。在第一步骤中(1.注释),第一关键帧以如下方式手动地配设期望的注释,即,例如在识别到的对象周围引入边界框,并且添加诸如对象类别之类的进一步的属性。在第二步骤(2.外插)中,确定并且手动地修正在第一关键帧中注释的针对第二关键帧的对象的推测的位置。可能要新添加的对象完全被手动地注释。在第三步骤(3.外插)中,确定并且手动地修正第三关键帧的已注释的对象的推测的位置。一旦所有的关键帧都被注释,那么在第四步骤(4.内插)中通过内插确定在中间帧上的对象位置并且传递属性。
由此限制通过扩大在关键帧之间的间距对自动化率的提高,即,手动修正耗费会极为快速地上升,因为对象位置的外插和必要时还有内插不再足够精确。
通过引入时间关联(在时间关联中,同一对象的注释在时间轴上自动相互关联)以及在结合神经网络与对象识别的情况下,可以有效地克服当前的半自动化的局限性。时间关联基于的事实是,依次相继的图像随时间仅逐渐变化。对象之间的逻辑链接可以被自动识别和利用,以便提取更高层次上的语义信息,由此实现基于对象识别的方案,该方案最终导致了高得多的自动化程度。
图3示出了用于注释驾驶场景传感器数据的按本发明的方法的一种实施方式的示意性流程图。
在第一步骤S1中(识别对象),使用神经网络来进行对象检测,以便优选识别每个图像或每个点云中的尽可能多的对象。
图4示意性地示出了一系列图像,在这些图像中,神经网络在第一轮中已经识别到了一系列对象。例如可以如所阐明的那样涉及到机动车,原则上识别片段(Clip)的每个图像中或者说依次相继的一系列图像中和/或激光雷达点云中的不同的对象类型或对象类别,除车辆外也还有行人、动物和障碍物或任意其它令人感兴趣的静态的或动态的对象。
在一种优选的实施方式中,为了视对象类别和/或传感器数据的范围而定识别对象而使用神经网络的不同的架构。尤其可以为了识别激光雷达点云中的对象而在不同的区域中使用神经网络的不同的架构,其中,所述区域优选被划分成测量车辆周围的近距离区域和远距离区域。
在此,优选在远距离区域中使用一种基于在Shaohuai Shi等人的《PointRCCN:从点云生成和检测3D对象候选框》(arXiv:1812.04244v2,2019年05月16日)中说明的pointRCNN的架构。这种架构特别善于建议合理的框尺寸,并且因此也适用于注释可能仅由几个测量点构成的远处的对象。
在近距离区域中,优选使用基于在Tianwei Yin等人的《基于中心的3D对象检测和追踪》(arXiv:2006.11275v1,2020年06月19日)中说明的神经网络架构。这更为良好地适用于区分不同的对象类别,并且因此在存在许多测量点的近距离区域中提供更好的结果。
按照本发明的备选的实施方式,可以为了更好的覆盖而将不同的网络架构组合起来。
在第二步S2(丢弃重复物)中丢弃重复物,在重复物中,所使用的对象检测器因此在所观察的帧(图像或点云)中围绕单个对象产生了多个边界框。出现这种情况是因为神经网络通常就尽可能高的覆盖进行优化,以便不遗漏任何对象,不过这导致了许多重复物。去除或丢弃重复物可以基于过滤规则进行,过滤规则可以包括一个或多个标准。
标准在此可以是观察在两个边界框之间的重叠、特别是也作为雅卡尔指数公知的交并比。如果两个框的重叠超过了预定的阈值,特别是交并比为0.98,那么这些框就被认为是重复物。预定的阈值也可以根据所识别的对象类型加以选择。也可以作为标准规定,除了预定的重叠外,也必须存在一致的对象类别,以便将两个框视为重复物。此外,用于对象识别的网络的置信度可以用作用于过滤规则的标准和/或在与对象类别的组合标准中被考虑。此外还可以规定,在识别到重复物时,借助所配设的置信度选择要删除的框、特别是删除具有较低置信度的框。
在第三步骤S3(在时间上关联对象)中,沿剩余的对象的时间轴观察这些剩余的对象,以便确定时间关联。这示意性地在图5中阐明,图中示出了三个依次相继的帧,在这些帧中,车辆在这些帧上通过箭头被标注为一致的。通过确定彼此关联的对象,这些对象可以链接成链,链之后就能实现进一步的评估,但也能填补中间帧上的识别空缺。
对象关联可以作为链接以单向的或双向的方式进行。第一轮的识别空缺可以基于这个链接跨接,以便克服遮挡、分离和错过的对象。
在本发明的第一种实施方式中,通过估计后续图像中对象的位置完成单向链接。若在对象识别时在估计的区域内发现了满足特定的合理性检查(类型、用于车辆运动的阿克曼模型、...)的对象,那么这两个对象实例就被标记为属于同一对象。
可以使用高斯过程简化或卡尔曼滤波作为用于估计位置的策略。高斯过程简化在Rohit Tripathy等人的《Gaussian processes with built-in dimensionalityreduction:Applications in high-dimensional uncertainty propagation》(arXiv:1602.04550v1,2015年02月15日)中说明。卡尔曼滤波使用在统计和控制理论中并且也称为线性二次估计。卡尔曼滤波的算法使用一系列随时间被观察的并且包含统计噪声和其它不准确性的测量,以便产生未知变量的估计值,它们通常比基于唯一一次测量的估计值更为准确。此外,可以将粒子滤波或序贯蒙特卡罗方法(SMC)用于位置估计,即一系列蒙特卡罗算法,它们用于在信号处理和贝叶斯统计推理方面解决过滤问题。已经链接的对象的链越长,可以用于高精度位置估计的信息就越多。
在本发明的第二种实施方式中,因子图(表示函数的因子化的二分图)可以备选地用于对象追踪。在此,一个图像上的每个对象与随后的图像上的每个对象链接。每个链接均按照特定的标准进行加权,并且然后在两个帧和所有的对象上推导出完美的链接。加权规则可以借助启发法或行为模型来制定。
一旦完成了依次相继的帧中对象的关联,那么可以基于这个链接推导出诸如轨迹(即重心在运动通过空间中作为时间函数所经过的路程)、速度(作为关于时间的函数)、地点、遮挡(对象在时间上被其它对象遮挡)和分离(在由传感器检测的区域的边缘处)之类的附加的语义信息以及有关识别错误的信息(在当前的和随后的图像上存在对象,因此识别可能在期间失败)并且将它们用作用于随后的自动化步骤的输入。
在第四步骤S4(去除假阳性结果)中去除错误识别的对象。可以使用和/或结合多个规则或标准来去除假阳性对象。
例如可以观察地面以上的高度,其中,部分在地表下方被识别到对象和/或看起来在地面上方盘旋的对象,被作为不合理的而被丢弃。备选或补充性地可以针对车辆观察运动或轨迹,其中,可以确定一个或多个诸如加速度或方向改变之类的参量并且将它们与预定的极限值相比较;处在对特定的车型而言普遍的范围之外或由轮胎在地面上的附着极限限定的物理可能性之外的加速度,是不合理的。也可以观察存在的时间间隔,其中,仅在单个帧内存在或者在几分之一秒内存在的,但在相邻的帧中没有出现的对象,是不合理的。在此也相宜地考虑到了被其它对象的可能的遮挡,以避免在确定存在时间间隔时的错误。也可以补充性地规定,只有那些被神经网络以低置信度识别的对象才被作为不合理的而丢弃。
识别假阳性的结果与从时间关联中推导出的语义信息密切相关。在现实世界中,一个对象例如不会仅存在几分之一秒的时间。通过丢弃不合理的对象,可以达到在注释项目中能按约定协定了的精度值和重新识别值。
在第五步骤S5(通过回归优化对象尺寸)中,每个对象通过神经网络回归到其完美的位置和尺寸。在本发明的一种实施方式中,在框尺寸回归时也可以考虑相邻的图像。备选或补充性地,也可以如在步骤S7下方中那样规定,在进一步的后处理步骤中相互均衡识别的或关联的对象的框的尺寸。
在第六步骤S6(填补空缺)中,基于时间关系或者说时间上下文,通过内插填补空缺。由依次相继的帧中的对象的关联可以推断出附加的语义信息,以便也在遮挡情况下(此时处于前景中的对象暂时遮挡了另一个对象)和/或剪除情况下(此时对象从被传感器检测的区域伸出)或者在识别错误的情况下(此时在之前的和随后的图像上存在对象,因此在其间的识别可能失败)获得针对交通参与者的依次相继的轨迹。进一步的语义信息也可以从时间关联中推导出并且用作随后的自动化步骤或后处理步骤的输入。图6示意性地示出了一系列帧,在这些帧中,为进一步的评估选择关联的对象。
在第七步骤S7(统一尺寸)中,跨越依次相继的图像和/或激光雷达点云的链地统一尺寸。这对于达到真实的尺寸特别重要,因此对象看起来更好并且对人观察者而言会感觉更自然。在依次相继的图像和/或点云中的关联对象的尺寸的统一,优选根据对象类别进行或放弃。尤其可以针对车辆进行尺寸统一,因为汽车通常跨越帧地保持其尺寸。因为行人可以视当前的身体姿势而定具有不同的假定的尺寸,所以有利的是,针对对象类别即行人放弃对尺寸的统一。
在第八步骤S8(借助物理模型平滑轨迹)中,场景中动态的对象或交通参与者的轨迹根据它们所基于的物理模型加以平滑。例如可以使用常见的单车道模型来说明机动车的行驶行为。
在第九步骤S9(确定属性)中,识别属性。这可以包括不同的进一步的步骤。
相关的属性可以根据对当前项目有效的标签规范发生变化,其中,不同的对象类别经常具有不同的属性。因此机动车可以例如具有用于表明计划的方向变化的闪光指示灯和用于表明制动操作的制动灯。在第九个流程或步骤中,优选基于传感器融合在项目中识别属性。需要时为闪光指示灯、制动灯、应急灯或注解的其它所描述的特性设置值。为了能将2D相机相片中的对象实例与3D激光雷达扫描中的同一对象的对象实例关联起来,必须在两个数据集中辨别共同的信息。然后用这些共同的数据点将两个数据集相互融合。为了识别属性,可以在合并的数据集上运行不同的基于2D的对象识别网络;在此尤其可以确定在相机图像上的属性并且将所述属性配设给激光雷达点云中的对象。
经注释的传感器数据可以用于不同的目的,如提取驾驶场景(场景提取)或者训练感知网络,为此需要经注释的或富集的数据作为基础事实(数据富集)。视自动化对象而定,在此可以调整上面阐释的步骤的顺序和个性化的配置,因而上述步骤中的一些步骤可以是可选的,即可以实施或者可以省略这些步骤,并且需要时也可以添加附加的步骤用于进一步的数据富集。
例如可以为了提取场景而实施下列步骤:
1.识别对象(步骤S1)
2.基于时间关联追踪(步骤S3)
3.识别/排除假阳性结果(步骤S4)
4.回归(步骤S5)
5.尺寸统一(步骤S7)
6.平滑轨迹(步骤S8)
例如可以为了选择数据而实施下列步骤:
1.识别对象
2.基于时间关联追踪
3.假阳性识别/排除
例如可以为了数据富集而备选实施下列步骤:
1.识别对象(步骤S1)
2.基于时间关联追踪(步骤S3)
3.识别/排除假阳性结果(步骤S4)
4.位置和尺寸的回归(参看步骤S5)
5.尺寸统一(步骤S7)
6.仅位置的回归(参看步骤S5)
7.识别诸如闪光指示灯、制动灯之类的属性和其它所说明的特性(步骤S9)
优选这样来构建用于执行不同步骤的算法,使得所述算法符合一个共同的接口或API,以便彼此间以及按顺序能交换,因而它们能以不同的方式组合以达到不同的对象结果。
图7示出了用于执行按本发明的方法的自动化系统的一种实施方式。自动化系统在专用部件中实施不同的补充性的步骤并且良好地适用于在云计算环境中的运行。
在第一步骤中,即数据预处理中,接收传感器原始数据,所述传感器原始数据可以例如是未经分类的。传感器原始数据可以包括周围环境传感器的数据,如激光雷达点云和/或一个或多个相机的图像,以及GPS接收器和/或一个或多个车辆传感器的、如车轮转速传感器、加速度传感器或偏航率传感器的数据。所述数据可以被标准化,例如分成各单独的帧,和/或合并成较大的数据包,以便实现统一的处理。也可以合并不同的传感器的同时采集的数据。
在第二步骤中,即自动化引擎中,由至少一个自动化部件处理帧包。自动化部件是注释系统的工作流程的核心组成部分。自动化部件尤其可以涉及神经网络或其它基于机器学习的技术,其以监督、半监督或无监督的方式从数据集学习。自动化部件可以实现按本发明的方法的各个步骤或分步骤。在一些步骤中,如识别属性(S9)中,可以使用多个自动化部件,如不同的神经网络来识别各一个属性。
在第三步骤中,即质量控制中,优选选出帧的样本并且由人进行检查。在此,可以向人质检员例如显示带有相应的注释、如边界框的相机图像和/或激光雷达点云,并且可以向他询问,边界框是否正确。备选地,倘若对象被神经网络忽略,那么可以向他显示用于调整边界框和/或用于添加边界框的用户界面。自动化系统接收质检员的输入。图9中示出了用户界面的一种可能的实施方式。
如果质量检查是成功的,那么可以输出经注释的数据。在第四步骤中,即客户检查中,客户可以检查所输出的帧的样本,以便确保,注释符合他的规范和期望的注释质量。如果客户拒绝注释,那么在修正的步骤中手动修改经注释的数据包。
在第五步骤中,即修正中,手动注释被拒收的数据包。在重新质量控制和成功的客户检查之后,可以将经注释的帧用作训练/验证或测试数据集。这些数据集象征性地通过柱筒示出并且可以用于新的或补充性的训练。
在第六步骤中,即“飞轮”中,借助训练数据集重新训练一个或多个神经网络或自动化部件。在用相应的测试数据集成功测试之后,可以部署更好的神经网络或者将其使用在自动化引擎中。
图8示出了用于自动训练属性检测器的“飞轮”方法的一种示例性的实施方式。
飞轮包括用于为每个自动化部件有效储存训练集、用于监督训练集的变化和一旦识别到用于训练集的变化的预定义的或自动确定的阈值就用于自动触发重新训练的技术。此外,飞轮还包括一些技术,以便将重新训练的模型自动推演/展开(ausrollen)到自动化部件中。
在相应的注释项目的标签规范中记下了必须识别哪些属性。针对对象类别轿车,例如将闪光指示灯的状态、运动状态和可能的遮挡作为属性。对象在原则上可以具有大量要为相应的对象类别指定的属性。
针对所述属性,优选分别将借助现有的数据集预训练的神经网络用作属性监测器。随着经检查的新的数据集的存在,重新训练至少一个属性监测器,因而所述属性监测器在注释项目的进程中具有更好的性能并且人工耗费减少。
图9示出了用于质量控制的用户界面的一种实施方式。
在左侧上示出了激光雷达点云的一个局部,在该局部中示出了一个边界框连同其前向方向以及地平面的影射/暗示(作为圆)。在中央示出了同时采集的相机图像的一个局部,在该局部中同样示出了边界框。右边示出了选择列表,在该选择列表中可以选择或输入由边界框所包围的对象的不同的属性。在此例如涉及到车辆(汽车),其是不动的(静止的),并且在该车辆上没有设置闪光指示灯(左/右闪光指示灯关闭)。也可以规定,用户界面包括(在此未示出的)按钮,用所述按钮打开用于说明质量问题的另一个窗口。在此,边界框的尺寸并不相符,因为车辆的一个角处在框外。这种表面简化了质量控制并且减少了为此所需的时间。
按本发明的方法利用了在依次相继的帧之间的时间关联,以便确定合理的对象识别和相符的尺寸并且因此也使得能实现大数据量的注释。

Claims (15)

1.一种用于注释驾驶场景传感器数据的计算机实现的方法,其中,所述方法包括:
接收传感器原始数据,其中,传感器原始数据包括激光雷达传感器的多个依次相继的点云和/或一个或多个相机的多个依次相继的图像,
在使用一个或多个神经网络的情况下识别在每个图像中的对象和/或每个点云中的对象,
将依次相继的图像和/或点云内的对象关联,
基于合理性标准去除假阳性结果,和
输出驾驶场景的经注释的传感器数据。
2.按照权利要求1所述的方法,其中,所述传感器原始数据包括激光雷达传感器的点云,其中,将点云划分成至少两个区,其中,为了识别对象,在第一区中使用第一架构的神经网络并且在第二区中使用第二架构的神经网络,其中,第一架构不同于第二架构。
3.按照权利要求2所述的方法,其中,所述第一区包括测量车辆的附近的周围环境,而所述第二区具有与测量车辆的最小间距,其中,针对用于对象识别的所述神经网络,优选地在所述第一区中使用基于中心点的架构并且在所述第二区中使用基于PointRCNN的架构。
4.按照前述权利要求中任一项所述的方法,所述方法还包括在关联对象之前去除重复物,其中,去除重复物优选基于重叠标准和/或神经网络的置信水平。
5.按照要求4所述的方法,其中,去除图像和/或点云内识别到的对象的重复物,其中,针对两个重叠的对象,即以第一置信水平识别到的第一对象和以第二置信水平识别到的第二对象检查重叠、特别是交并比是否超过预定的阈值,并且在这种情况下,将第二对象作为重复物而丢弃,其中,第一置信水平高于第二置信水平。
6.按照前述权利要求中任一项所述的方法,其中,关联对象包括链接在依次相继的帧中、即图像和/或点云中的对象,其中,当对象属于同一对象类别并且重叠、特别是交并比超过了预定的阈值时,将在第一帧中的对象与在第二帧中的对象关联。
7.按照前述权利要求中任一项所述的方法,其中,关联对象包括借助高斯过程简化或卡尔曼滤波预测对象在随后的图像和/或随后的点云上的位置,和/或借助因子图、即用于因子化概率分布的二分图追踪依次相继的图像中的对象。
8.按照权利要求6或7所述的方法,所述方法还包括修正错过的对象,其中,观察多于两个的依次相继的帧,其中,当在第一帧中的对象与在第三帧中的对象关联,但没有识别到在中间帧中的对象时,就在第二帧中插入所述对象。
9.按照前述权利要求中任一项所述的方法,其中,用于去除假阳性结果的合理性标准基于超过地面的高度、存在持续时间和/或神经网络的置信水平。
10.按照前述权利要求中任一项所述的方法,所述方法还包括通过回归来优化相机数据的每个图像中和/或每个点云中的对象尺寸和/或对象位置。
11.按照前述权利要求中任一项所述的方法,所述方法还包括统一依次相继的图像中和/或点云中关联的对象的尺寸,其中,优选地,根据所述对象类别来实行或放弃对关联的对象的尺寸的统一。
12.按照前述权利要求中任一项所述的方法,其中,所述传感器原始数据包括激光雷达点云和同步采集的相机数据,其中,在考虑到激光雷达传感器和相机的相对空间取向的情况下进行对象的关联。
13.按照前述权利要求中任一项所述的方法,其中,将用于识别属性的至少一个神经网络用于所识别的对象,优选地,借助相机图像确定至少一个属性、特别是车辆的闪光指示灯状态,并且将所述属性配设给所述激光雷达点云中的对象。
14.计算机能读取的数据载体,其包含指令,当计算机系统的处理器实施指令时,所述指令就促使计算机系统实施按照前述权利要求中任一项所述的方法。
15.计算机系统,其包括处理器、人机接口和非易失存储器,其中,非易失存储器包含指令,当处理器实施指令时,所述指令就促使计算机系统实施按照前述权利要求中任一项所述的方法。
CN202180067282.5A 2020-11-17 2021-11-16 用于注释传感器数据的方法和系统 Pending CN116324904A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
DE102020130335 2020-11-17
DE102020130335.1 2020-11-17
PCT/EP2021/081845 WO2022106414A2 (de) 2020-11-17 2021-11-16 Verfahren und system zur annotation von sensordaten

Publications (1)

Publication Number Publication Date
CN116324904A true CN116324904A (zh) 2023-06-23

Family

ID=78790020

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180067282.5A Pending CN116324904A (zh) 2020-11-17 2021-11-16 用于注释传感器数据的方法和系统

Country Status (7)

Country Link
US (1) US20230237810A1 (zh)
EP (1) EP4248418A2 (zh)
JP (1) JP2023548749A (zh)
KR (1) KR20230104592A (zh)
CN (1) CN116324904A (zh)
DE (1) DE102021129864A1 (zh)
WO (1) WO2022106414A2 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102022130472A1 (de) 2022-11-17 2024-05-23 Valeo Schalter Und Sensoren Gmbh Verfahren zum Betreiben eines Parkassistenzsystems für ein Fahrzeug

Also Published As

Publication number Publication date
WO2022106414A2 (de) 2022-05-27
US20230237810A1 (en) 2023-07-27
KR20230104592A (ko) 2023-07-10
JP2023548749A (ja) 2023-11-21
WO2022106414A3 (de) 2022-08-11
EP4248418A2 (de) 2023-09-27
DE102021129864A1 (de) 2022-05-19

Similar Documents

Publication Publication Date Title
EP3789920A1 (en) Performance testing for robotic systems
Michelmore et al. Evaluating uncertainty quantification in end-to-end autonomous driving control
Feng et al. A review and comparative study on probabilistic object detection in autonomous driving
US11783590B2 (en) Method, apparatus, device and medium for classifying driving scenario data
Agamennoni et al. Estimation of multivehicle dynamics by considering contextual information
CN111666804A (zh) 对于自主驾驶有用的行人移动预测
CN109109863B (zh) 智能设备及其控制方法、装置
US20230222336A1 (en) Performance testing for robotic systems
CN113935143A (zh) 通过自主车辆的增加的严重性等级估计碰撞概率
Kolekar et al. Behavior prediction of traffic actors for intelligent vehicle using artificial intelligence techniques: A review
Feth et al. Dynamic risk assessment for vehicles of higher automation levels by deep learning
CN115830399A (zh) 分类模型训练方法、装置、设备、存储介质和程序产品
US20230237810A1 (en) Method and system for annotating sensor data
Dezert et al. Environment perception using grid occupancy estimation with belief functions
US20240001942A1 (en) Performance testing for robotic systems
KR20240019268A (ko) 자율주행 차량 테스트를 위한 지원 도구
US20220390596A1 (en) Method, apparatus and computer program for enabling a sensor system for detecting objects in an environment of a vehicle
CN114140660A (zh) 一种车辆检测方法、装置、设备及介质
CN113963027B (zh) 不确定性检测模型的训练、不确定性的检测方法及装置
US20240135721A1 (en) Adversarial object-aware neural scene rendering for 3d object detection
US20230195977A1 (en) Method and system for classifying scenarios of a virtual test, and training method
EP4092565A1 (en) Device and method to speed up annotation quality check process
Lu et al. A BEV Scene Classification Method based on Historical Location Points and Unsupervised Learning
Xiao et al. VRSTNN: Visual-Relational Spatio-Temporal Neural Network for Early Hazardous Event Detection in Automated Driving Systems
Söderlund Data-Driven Reachability Analysis of Pedestrians Using Behavior Modes: Reducing the Conservativeness in Data-Driven Pedestrian Predictions by Incorporating Their Behavior

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination