CN117372916A - 对图像帧中的对象的注释 - Google Patents

对图像帧中的对象的注释 Download PDF

Info

Publication number
CN117372916A
CN117372916A CN202310814817.1A CN202310814817A CN117372916A CN 117372916 A CN117372916 A CN 117372916A CN 202310814817 A CN202310814817 A CN 202310814817A CN 117372916 A CN117372916 A CN 117372916A
Authority
CN
China
Prior art keywords
annotation
video sequence
image frames
attribute
image frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310814817.1A
Other languages
English (en)
Inventor
维纶·韦贝克
威廉·永贝格
奥勒·曼松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhe Xi Co
Original Assignee
Zhe Xi Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhe Xi Co filed Critical Zhe Xi Co
Publication of CN117372916A publication Critical patent/CN117372916A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • G06V20/582Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads of traffic signs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/60Extraction of image or video features relating to illumination properties, e.g. using a reflectance or lighting model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/778Active pattern-learning, e.g. online learning of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30236Traffic on road, railway or crossing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30248Vehicle exterior or interior
    • G06T2207/30252Vehicle exterior; Vicinity of vehicle

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)

Abstract

本公开涉及对图像帧中的对象的注释。公开了一种由注释系统执行的用于支持交通环境相关的视频序列的图像帧中的对象的注释的方法。注释系统确定对视频序列的图像帧中的对象的注释,该注释包括对象的至少第一属性;通过视频序列跟踪对象;以及将至少第一对象属性分配给视频序列的一个或多个先前和/或后续图像帧中的对象。注释系统还识别先前和/或后续图像帧中的至少第一图像帧。此外,注释系统指定被识别的至少第一图像帧为注释数据。本公开还涉及注释系统、包括这种注释系统的装置(例如车外系统和/或车辆)、以及相应的对应计算机程序产品和非易失性计算机可读存储介质。

Description

对图像帧中的对象的注释
技术领域
本公开涉及支持对交通环境相关的视频序列的图像帧中的对象的注释。
背景技术
在汽车领域内,自动驾驶车辆的研发活动已经持续了很多年。越来越多的现代车辆具有高级驾驶员辅助系统(advanced driver-assistancesystem,ADAS),以提高车辆安全性,并且更笼统地说,提高道路安全性。ADAS(例如,其可以由自适应巡航控件(ACC)、车道居中、自动变道、半自动停车等表示)是在驾驶时可以辅助车辆驾驶员的电子系统。此外,在不久的将来,自动驾驶(Autonomous Driving,AD)将更大程度地进入现代车辆。AD和ADAS在本文中在通用术语下将被称为对应于所有不同级别的自动化(例如,如驾驶自动化的SAEJ3016级别(0-5)所定义的)的自动驾驶系统(Automated Driving System,ADS)。ADS可以被理解为能够被定义为系统的各种组件的复杂组合,在这些系统中,车辆的感知、决策和操作(至少部分地)由电子设备和机械而不是人类驾驶员来执行。这可以包括对周围环境的感知以及对车辆的处理。在自动化系统具有对车辆的控制时,其允许人工操作员将所有或至少一些职责留给系统。例如,处于4级或以上的ADS(例如,如SAE J3016所定义的)可以提供无监督的自动驾驶,因此这可以通过允许车辆乘员(例如驾驶员)参与非驾驶相关的任务而产生增强的舒适性和便利性。为了感知其周围环境,ADS通常组合各种传感器,例如,雷达、激光雷达、声纳、相机、导航和/或定位系统(例如,诸如GPS之类的GNSS)、里程计和/或惯性测量单元,在此基础上高级控制系统可以解释传感信息以识别适当的导航路径以及障碍物和/或相关标志。
此外,当涉及计算机视觉时,例如涉及配备ADS的车辆的一个或多个例如相机时,机器学习算法通常用于解决其许多任务。训练监督或半监督算法的基本必要条件是带注释的示例的数据集,算法使用该数据集进行学习。除了少数情况(尤其是在制造自动驾驶车辆时很常见),在所有情况下,带注释的示例都是单个图像帧。可以获得连续的数据流(例如捕获的视频序列),并从该数据集中注释单个图像帧。注释几乎总是由查看图像帧然后设定正确属性的人工注释者做出。
然而,对各个图像的人工注释的一个根本限制是,当对象太远或其他因素限制可见性时,人工可能不再能够对图像中的(一个或多个)对象进行注释。一个具体的示例将是例如图像中的交通指示牌,该交通指示牌太远,使得人工注释者不可能看到它是什么类型的交通指示牌。可能限制可见度的另一因素的示例是相机视图边缘处的对象的运动模糊。可以想象例如高速驾驶的车辆经过交通指示牌;当车辆要经过该指示牌时,图像中的运动模糊经常很严重,使得人工注释者不可能看到它是哪种交通指示牌。
大多数数据集通常仅能够在人工能够识别图像中确切存在什么的情况下被正确地注释,这一事实是机器学习算法(例如深度学习算法,例如旨在用于ADS)的一个限制因素。
发明内容
因此,本文实施例的一个目的是提供一种用于以改进的和/或替代的方式支持对交通环境相关的视频序列的图像帧中的对象的注释的方法。
上述目的可以通过本文公开的主题来实现。在所附权利要求、以下描述和附图中阐述了各实施例。
根据本公开的一个方面,提供了一种由注释系统(1)执行的方法,用于支持交通环境相关的视频序列的图像帧中的对象的注释,所述方法包括:确定(1001)对所述视频序列的图像帧(f0)中的对象(4)的注释,所述注释包括所述对象(4)的至少第一属性(41);通过所述视频序列跟踪(1002)所述对象(4);将所述至少第一对象属性(41)分配(1003)给所述视频序列的一个或多个先前和/或后续图像帧(fp/s)中的对象(4′);识别(1004)所述先前和/或后续图像帧(fp/s)中的至少第一图像帧,在所述至少第一图像帧中:所述对象(4′)的像素区域尺寸(5)低于规定了像素区域尺寸的对象类型和/或属性类型特定阈值,低于该阈值的所述至少第一对象属性(41)被定义为不能检测的,例如不能人工检测的;和/或所述对象(4′)的至少预定部分的像素中的运动模糊(6)超过规定了运动模糊水平的运动模糊阈值,高于该阈值的所述至少第一对象属性(41)被定义为不能检测的,例如不能人工检测的;和/或所述对象(4′)的至少预定部分的像素中的明度(7)超过规定了明度水平的明度阈值,高于该阈值的所述至少第一对象属性(41)被定义为不能检测的,例如不能人工检测的;以及指定(1005)被识别的所述至少第一图像帧为注释数据。
根据本公开的一个方面,提供了一种注释系统(1),用于支持交通环境相关的视频序列的图像帧中的对象的注释,所述注释系统(1)包括:注释确定单元(101),用于确定(1001)对所述视频序列的图像帧(f0)中的对象(4)的注释,所述注释包括所述对象(4)的至少第一属性(41);对象跟踪单元(102),用于通过所述视频序列跟踪(1002)所述对象(4);属性分配单元(103),用于将所述至少第一对象属性(41)分配(1003)给所述视频序列的一个或多个先前和/或后续图像帧(fp/s)中的对象(4′);帧识别单元(104),用于识别(1004)所述先前和/或后续图像帧(fp/s)中的至少第一图像帧,在所述至少第一图像帧中:所述对象(4′)的像素区域尺寸(5)低于规定了像素区域尺寸的对象类型和/或属性类型特定阈值,低于该阈值的所述至少第一对象属性(41)被定义为不能检测的,例如不能人工检测的;和/或所述对象(4′)的至少预定部分的像素中的运动模糊(6)超过规定了运动模糊水平的运动模糊阈值,高于该阈值的所述至少第一对象属性(41)被定义为不能检测的,例如不能人工检测的;和/或所述对象(4′)的至少预定部分的像素中的明度(7)超过规定了明度水平的明度阈值,高于该阈值的所述至少第一对象属性(41)被定义为不能检测的,例如不能人工检测的;以及注释数据指定单元(105),用于指定(1005)被识别的所述至少第一图像帧为注释数据。
根据本公开的一个方面,提供了一种装置,例如车外系统(109)和/或车辆(2),该装置包括注释系统。
根据本公开的一个方面,提供了一种包括计算机程序的计算机程序产品,计算机程序包括计算机程序代码模块,计算机程序代码模块被布置为使计算机或处理器执行方法的步骤,计算机程序产品被存储在计算机可读介质或载波上。
根据本公开的一个方面,提供了一种非易失性计算机可读存储介质,其上存储有计算机程序产品。
所公开的主题涉及一种由注释系统执行的用于支持对交通环境相关的视频序列的图像帧中的对象的注释的方法。注释系统确定对视频序列的图像帧中的对象的注释,该注释至少包括对象的第一属性。注释系统还通过视频序列跟踪对象。此外,注释系统将至少第一对象属性分配给视频序列的一个或多个先前和/或后续图像帧中的对象。注释系统还识别先前和/或后续图像帧中的至少第一图像帧,其中:对象的像素区域尺寸低于规定了像素区域尺寸的对象类型和/或属性类型特定阈值,低于该阈值的至少第一对象属性被定义为不能检测的,例如不能人工检测的,和/或对象的至少可预定部分的像素中的运动模糊超过规定了运动模糊水平的运动模糊阈值,高于该阈值的至少第一对象属性被定义为不能检测的,例如不能人工检测的,和/或对象的至少可预定部分的像素中的明度超过规定了明度水平的明度阈值,高于该阈值的至少第一对象属性被定义为不能检测的,例如不能人工检测的。此外,注释系统指定被识别的至少第一图像帧为注释数据。
所公开的主题还涉及一种注释系统,该注释系统用于(和/或适用于和/或被配置为)支持对交通环境相关的视频序列的图像帧中的对象的注释。注释系统包括注释确定单元,用于确定对视频序列的图像帧中的对象的注释,该注释至少包括对象的第一属性。注释系统还包括对象跟踪单元,用于通过视频序列跟踪对象。此外,注释系统包括属性分配单元,用于将至少第一对象属性分配给视频序列的一个或多个先前和/或后续图像帧中的对象。此外,注释系统包括帧识别单元,用于识别先前和/或后续图像帧中的至少第一图像帧,其中:在至少第一先前和/或后续图像帧中的对象的像素区域尺寸低于规定了像素区域尺寸的对象类型和/或属性类型特定阈值,低于该阈值的至少第一对象属性被定义为不能检测的,例如不能人工检测的;和/或在至少第一先前和/或后续图像帧中的对象的至少可预定部分的像素中的运动模糊超过规定了运动模糊水平的运动模糊阈值,高于该阈值的至少第一对象属性被定义为例如不能检测的,例如不能人工检测的;和/或在至少第一先前和/或后续图像帧中的对象的至少可预定部分的像素中的明度超过规定了明度水平的明度阈值,高于该阈值的至少第一对象属性被定义为不能检测的,例如不能人工检测的。注释系统还包括注释数据指定单元,用于指定被识别的至少第一图像帧为注释数据。
此外,所公开的主题涉及一种装置(例如车外系统和/或车辆),该装置包括如本文所描述的注释系统。
此外,所公开的主题涉及一种计算机程序产品,该计算机程序产品包括具有计算机程序代码模块的计算机程序,该计算机程序代码模块被布置为使计算机或处理器执行本文所述的注释系统的步骤,该计算机程序产品被存储在计算机可读介质或载波上。
所公开的主题还涉及一种非易失性计算机可读存储介质,其上存储有所述计算机程序产品。
因此,引入了一种方法,该方法能够在一般不可能(例如不可能由人工)进行基于主流图像的注释的情况下对交通状况相关的图像进行注释。也就是说,因为根据引入的概念确定了对交通环境相关的视频序列的图像帧中的对象的注释,该注释包括对象的至少第一属性,所以建立和/或导出了(例如由机器生成和/或用户输入)的对视频序列的所选的图像帧中的至少第一对象(例如交通指示牌)的注释,该注释包含对象的一段或多段(例如静态的)语义信息,例如对象(例如交通指示牌)的对象类型、标志类型、形状、(一个或多个)颜色和/或速度限制等和/或对象(例如交通指示牌)上的污垢和/或损坏等。此外,也就是说,因为通过视频序列跟踪对象,所以可以例如在一个或多个(例如,已知的)跟踪器的支持下,通过视频序列的先前和/或后续图像帧在时间上向后和/或向前跟踪对象(例如,示例性的交通指示牌)。此外,即,因为至少第一对象属性被分配给视频序列的一个或多个先前和/或后续图像帧中的对象,所以包括在对注释图像帧中的对象的注释中与对象相关联的一段或多段(例如静态的)语义信息被外推和/或扩展到视频序列的一个或多个过去和/或以后图像帧中的相应对象。因此,对象的属性,例如对象(例如交通指示牌)的对象类型、标志类型、形状、(一个或多个)颜色和/或速度限制等和/或对象(例如交通指示牌)上的污垢和/或损坏等,可以被分配给至少第一先前和/或后续图像帧中的匹配对象。换句话说,利用引入的概念,通过使用来自原始的例如单个(而且例如清晰的)注释图像帧的知识,视频序列的更多图像帧(例如先前不能注释的图像帧)可以被注释,例如以自动方式而被分配至少第一对象属性。此外,也就是说,因为识别了先前和/或后续图像帧中的第一图像帧,其中(至少第一先前和/或后续图像帧中的)对象的像素区域尺寸低于规定了像素区域尺寸的对象类型和/或属性类型特定阈值,且低于该阈值的至少第一对象属性被定义为不能(例如人工)检测的,视频序列的至少第一先前和/或后续图像帧可以被识别,其中相应的对象(例如由于较远)具有小于阈值的像素区域尺寸,该阈值定义了当对象所属的对象类型的对象属性和/或至少第一对象属性所属的属性类型的对象属性被认为和/或被定义为不再可(例如由人工注释者)识别时的极限。因此,可以挑选出一个或多个图像帧,其中已经用从原始注释分配的至少第一对象属性对相应对象进行了注释,并且该相应对象还具有已经减小到所定义的对象属性可检测性极限以下的像素区域尺寸,因此这些图像帧得到了超出公知和/或普通(例如人工)感知和/或可检测性的注释。此外,也就是说,因为附加地或替代地识别了先前和/或后续图像帧中的至少第一图像帧,其中(至少第一先前和/或后续图像帧中的)对象的至少可预定部分的像素中的运动模糊超过规定了运动模糊水平的运动模糊阈值,高于该阈值的至少第一对象属性被定义为不能检测的,例如不能人工检测的,视频序列的至少第一先前和/或后续图像帧可以被识别,其中,相应对象(例如由于相对运动和/或较高的角速度)在例如其像素的重要部分中具有超过阈值的运动模糊,该阈值定义了当运动模糊被认为和/或被定义为使得至少第一对象属性不再可(例如由人工注释者)识别时的极限。因此,可以挑选出一个或多个图像帧,其中已经用从原始注释分配的至少第一对象属性对相应对象进行了注释,并且该相应对象还具有已经增加到所定义的对象属性可检测性极限以上的运动模糊的像素,因此这些图像帧得到了超出公知和/或普通(例如人工)感知和/或可检测性的注释。此外,也就是说,因为附加地或替代地识别了先前和/或后续图像帧中的至少第一图像帧,其中(至少第一先前和/或后续图像帧中的)对象的至少可预定部分的像素中的明度超过规定了明度水平的明度阈值,高于该阈值的至少第一对象属性被定义为不能检测的,例如不能人工检测的,因此视频序列的至少第一先前和/或后续图像帧可以被识别,其中,相应对象例如由于阳光和/或眩光和/或较快的照明变化而在例如其像素的显著部分中具有超过阈值的明度和/或潜在的明度变化率,该阈值定义了当明度和/或潜在的明度变化率被认为和/或被定义为使得至少第一对象属性不再可(例如由人工注释者)识别时的极限。因此,可以挑选出一个或多个图像帧,其中已经用从原始注释分配的至少第一对象属性对相应对象进行了注释,并且该相应对象还具有已经增大到所定义的对象属性可检测性极限之外的明度和/或潜在明度变化率的像素,因此这些图像帧得到了超出公知和/或普通(例如人工)感知和/或可检测性的注释。此外,也就是说,因为被识别的至少第一图像帧被指定为注释数据,所以以有效的方式实现了注释图像帧的数据集:从原始的例如单个注释图像帧中导出和/或生成,覆盖了对于在主流图像帧中的相应对象属性被认为是不可识别的对象的注释(包括被分配的对象属性)。因此,提供了和/或支持了扩展的自动生成的注释数据集(例如旨在用于计算机视觉机器学习算法训练,该算法训练例如旨在用于ADS),该数据集覆盖了传统上(例如基于按图像的方式)不可能注释的图像帧。因此,根据一个示例,利用引入的概念,通过使用如本文所描述的视频序列及其例如人工注释图像帧,可以创建不受例如人类感知限制的注释的数据集。
因此,提供了一种用于以改进的和/或替代的方式支持对交通环境相关的视频序列的图像帧中的对象的注释的方法。
在下文中,将更详细地讨论所述方法的技术特征和对应的优点。
附图说明
根据以下的具体实施方式和附图,将容易理解包括特定的特征和优点的非限制性实施例的各个方面,其中:
图1是根据本公开的实施例的示出了示例性注释系统的示意框图;
图2a至图2c示出了根据本公开的实施例的示例性注释系统的示例性图像帧的示意图;以及
图3是根据本公开的实施例的描绘了由注释系统执行的示例性方法的流程图。
具体实施方式
现在将在下文中参考附图更全面地描述本公开的非限制性实施例,在附图中示出了本公开的当前地优选实施例。然而,本公开可以以许多不同的形式体现,并且不应当被理解为限定于本文阐述的实施例。相同的附图标记始终表示相同的元素。图中一些框的虚线表示这些单元或动作是可选的而不是强制性的。
在下文中,根据本文中涉及支持对交通环境相关视频序列的图像帧中的对象进行注释的实施例,将公开一种方法,该方法在通常不可能基于现有图像进行注释的情况下(例如,由人类进行注释),能够对与交通状况有关的图像进行注释。
现在参考附图,图1描绘了根据本公开的实施例的示例性注释系统1的示意性框图,并且图2a至图2c描绘了根据本公开的实施例的示例性注释系统1的示例性图像帧的示意图。注释系统1适用于支持对对象的注释,这些对象在交通环境相关的视频序列的图像帧中。这些对象可以由在与交通环境相关的情况下可能遇到和/或捕获的任何可行的(例如,公知的)对象来表示,并且例如与以下项相关:诸如道路使用者(例如,车辆、自行车)、普遍认为易受伤害的道路使用者(例如行人等)之类的动态对象、和/或诸如与交通环境相关的基础设施和/或静态环境(例如,路标、交通灯、交通信号、反射柱、建筑锥、道路标记、路边建筑物和/或树木等)之类的静态对象。另一方面,视频序列可能被预先记录并且还可以被称为任何可行数量的一系列图像帧,可以具有任何可行的格式和/或持续时间(例如,从几毫秒到几十秒或几分钟或更长),并且还可以被捕获和/或已经在与任何可行的交通状况相关的情况下和/或在道路周边环境中在任何可行的时间内被捕获,以便随后提供给注释系统1和/或由其进行检索。视频序列可以例如被至少第一图像捕获设备3捕获和/或已经被至少第一图像捕获设备3捕获,第一图像捕获设备3代表了适用于和/或被配置用于捕获图像(例如,视频序列)的任何可行的(一个或多个)设备(例如,(一个或多个)相机)。至少第一图像捕获设备3可以例如被包括在任何可行的布置和/或载体(例如监视系统、人和/或车辆2)中和/或由其承载;图2a至图2c例如示出了由沿道路行驶的车辆2上搭载的相机捕获的相应视频序列。可选的车辆2(例如,被称为道路驾驶车辆)可以由任何任意的(例如,已知的)有人驾驶或无人驾驶车辆来表示,可以潜在地由发动机驱动的或电动的车辆来表示,例如汽车、卡车、货运汽车、厢式货车、公共汽车和/或拖拉机。根据一个示例,车辆2还可以配备有ADS21,ADS 21可以由例如本领域已知的和/或有待开发的任何任意的ADAS或AD系统来表示。此外,可选的车辆2和/或ADS 21可以包括、设有和/或搭载有可选的感知系统(未示出)和/或类似的系统和/或功能,该可选的感知系统和/或类似的系统和/或功能适用于估计车辆2的周围环境,并且随后适用于例如在诸如高清(HD)地图和/或标清(SD)地图和/或其等效物和/或其后继者之类的数字地图(例如搭载在车辆2和/或至少第一远程可访问服务器上)的支持下估计周围环境的世界视图。这种感知系统可以指任何公知的系统、模块和/或功能(例如,被包括在车辆2和/或ADS 21的一个或多个电子控制模块、ECU和/或节点中),适用于和/或被配置为解释与车辆2的驾驶相关的传感信息,以识别例如对象、障碍物、车辆车道、相关标志、适当的导航路径等。可以适用于支持例如传感器融合、跟踪、定位等的感知系统因此可以适用于依赖传感信息。这种示例性的传感信息可以例如从一个或多个例如公知的传感器导出,这些传感器被包括在车辆2内和/或被搭载在车辆2上,适用于感测和/或感知车辆2的行踪/或周围环境,这些传感器例如由一个或多个周围环境检测传感器和/或定位系统、里程计、惯性测量单元中的一个或多个的组合来表示。换句话说,在本文的上下文中,感知系统因此被理解为负责从车载传感器(例如至少从至少第一图像捕获设备3)获取原始传感器数据并且将这些原始数据转换为对场景的理解的系统。
短语“注释系统”可以指“注释放大系统、“注释数据放大系统”、“注释扩展系统”和/或“注释支持系统”,而“由注释系统执行的方法”可以指“由注释系统执行的至少部分由计算机实现的方法”。此外,“用于支持对图像帧中的对象的注释”可以指“用于对图像帧中的对象的注释”、“用于支持对图像帧中的对象的扩展的和/或按比例放大的注释”和/或“用于支持扩展的和/或按比例放大的注释数据”,并且根据示例,还可以指“用于支持用于训练计算机视觉机器学习算法的扩展和/或按比例放大的注释数据”。另一方面,短语“交通环境相关的视频序列”可以指“交通相关的、交通状况相关的和/或道路环境相关的视频序列”,并且根据示例,还可以指“由例如配备有ADS的车辆的至少第一图像捕获设备和/或例如配备有ADS的车辆上搭载的至少第一图像捕获设备捕获的与交通环境相关的视频序列”。
如以示例性的方式在示例性的图1和图2中示出的,注释系统1(例如,凭借注释确定单元101)适用于和/或被配置为确定对视频序列的图像帧f0中的对象4的注释,该注释至少包括对象4的第一属性41。因此,在视频序列的所选的图像帧f0中建立和/或导出了至少第一对象4(例如相应的图2a至图2c中示出的对例如交通指示牌)的、例如由机器生成和/或用户输入的注释,该注释包含该对象的一段或多段(例如静态的)语义信息41,例如示例性交通标志的对象类型、标志类型、形状、(一个或多个)颜色和/或速度限制等和/或交通标志上的污垢和/或损坏等。
待注释的对象4可以以任何可行的(例如,已知的)方式而被选择和/或已经被选择。类似地,图像帧f0(其中对象4被注释)可以以任何可行的(例如,已知的)方式从视频序列中被选择和/或已经被选择。在示例性的图2a至图2c中,各个所选的图像帧f0(其中对象4被注释)被示出为与时间戳t0相关联。此外,包括在对对象4的注释中的一个或多个属性41可以由对象4的任何特性和/或语义信息来表示,例如其静态属性。对对象4的注释可以发生在任何可行的位置,例如在配备ADS的车辆2上和/或在远离车辆2的位置(例如在非车载实体处),该非车载实体例如提供注释的机构和/或注释公司。确定对对象4的注释还可以以任何可行的(例如已知的)方式来实现,例如从由例如人工注释者提供的输入导出注释,和/或例如在机器学习算法和/或模型的支持下产生机器生成的注释。可选地,确定对对象4的注释可以包括(和/或注释确定单元101可以可选地适用于和/或被配置为)从(例如配备ADS的)车辆2上搭载的计算机视觉机器学习算法导出注释。因此,注释可以在车辆2上在例如处于阴影模式的、训练中的和/或当前被部署的计算机视觉机器学习算法的支持下以边缘方式(on-edge)生成。
短语“确定注释”可以指“导出、获得、生成、创建、制作和/或产生注释”、“确定至少第一注释”、“确定原始注释”、“确定机器生成和/或人类输入的注释”和/或“在线或离线确定注释”,而“对象的注释”可以指“对象的标签和/或标记”、“至少第一对象的注释”和/或“对象的至少一部分的注释”。此外,“图像帧中的对象”可以指“可预定的和/或所选的图像帧中的对象”,而“图像帧”通篇可以指“图像”。此外,“时间戳”通篇可以指“时间步长和/或时间点”,而“所述视频序列的图像帧”可以指“所述视频序列的至少第一图像帧”和/或“交通环境相关的视频序列的图像帧”。另一方面,短语“包括所述对象的至少第一属性的注释”可以指“包括所述对象的至少第一属性、特性、特征和/或语义信息段的注释”,并且根据示例,还可以指“包括所述对象的至少第一静态的或基本静态的属性的注释”。
如以示例性的方式在示例性的图1中示出的,注释系统1还(例如,凭借对象跟踪单元102)适用于和/或被配置为通过视频序列跟踪对象4。因此,可以例如在一个或多个(例如,已知的)跟踪器的支持下,通过视频序列的先前和/或后续图像帧在时间上向后和/或向前跟踪对象4(图2a至图2c中的示例性交通指示牌)。可以以任何可行的(例如已知的)方式,例如在至少第一跟踪器(例如公知的boosting跟踪器、Mil跟踪器和/或Goturn跟踪器等)和/或其等效物和/或其后继者的支持下通过视频序列跟踪对象4。还可以通过任何可行的时间段和/或多个过去和/或以后图像帧的视频序列跟踪对象4。因此,短语“通过所述视频序列跟踪所述对象”可以指“通过所述视频序列在时间上向后和/或向前跟踪所述对象”、“通过所述视频序列的一个或多个图像帧跟踪所述对象”和/或“通过所述视频序列的至少一部分跟踪所述对象”。根据一个示例,对象4可以替代地由人工(例如人工注释器)来跟踪,例如跳过一个或多个中间帧,在这种情况下,可以潜在地省去跟踪步骤和/或对象跟踪单元102。
如以示例性的方式在示例性的图1至图2中示出的,注释系统1还(例如凭借属性分配单元103)适用于和/或被配置为将至少第一对象属性41分配给视频序列的一个或多个先前和/或后续图像帧fp/s中的对象4′。因此,在视频序列的一个或多个过去和/或以后的图像帧fp/s中,与对象4相关联的一个或多个例如静态语义信息41被外推和/或扩展到对应的对象4′,所述一个或多个例如静态语义信息41包含在被注释的图像帧f0中的对象4的注释中。因此,对象4的属性41(例如图2a至图2c中描绘的示例性交通标志的对象类型、标志类型、形状、(一个或多个)颜色和/或速度限制等和/或交通标志上的污垢和/或损坏等)可以被分配给如示例性的图2a所示的至少第一先前图像帧fp/s和/或如示例性的图2b至图2c所示的至少第一后续图像帧fp/s中的匹配对象4′(这里是交通指示牌)。换句话说,利用引入的概念,通过使用来自原始的例如单个(更进一步而言例如清晰的)注释图像帧f0的知识,视频序列的更多图像帧fp/s(例如先前不能注释的图像帧)可以被注释,例如以自动方式而被分配至少第一对象属性41。因此,短语“分配所述至少第一对象属性”可以指“外推、扩展、关联和/或分配所述至少第一对象属性”和/或“分配包括至少第一对象属性的所述注释的至少一部分”。此外,“对一个或多个[……]图像帧中的对象”可以指“对一个或多个[……]图像帧中的相应和/或匹配对象”和/或“对一个或多个所选的和/或可预定的[……]图像帧中的对象”,而“先前和/或后续图像帧”可以指“过去和/或以后图像帧”。至少第一对象属性41可以被分配给视频序列的任何所选的和/或可预定的一个或多个先前和/或后续图像帧fp/s中的相应对象4′,例如从基本上每个图像帧fp/s到其选择和/或子集。值得注意的是,至少第一对象属性41可以至少和/或还可以被分配给先前和/或后续图像帧fp/s中的相应对象4′,对于这些对象4′,相应的一个或多个对象属性例如对于人工(例如人工注释者)是不能检测的。因此,图像帧fp/s可以被注释,这通常例如基于每个图像的基础不可能例如由人工来注释。
可选地,将对象4的至少第一属性41分配给一个或多个先前和/或后续图像帧fp/s中的对象4′可以包括(和/或属性分配单元103可以可选地适用于和/或被配置为)在以下情况下执行分配:对象4的、所确定的(例如机器生成的)注释满足可预先确定的置信度标准。因此,仅在注释满足规定了注释置信度方面的至少第一最小阈值、限制和/或条件的标准的情况下,至少第一对象属性41才被分配给其他图像帧fp/s。可选的置信度标准可以由被认为和/或被定义为相关的任何可行的标准、(一个或多个)阈值和/或(一个或多个)限制来表示。
如以示例性的方式在示例性的图1至图2中示出的,注释系统1还(例如,凭借帧识别单元104)适用于和/或被配置为识别先前和/或后续图像帧tp/s中的至少第一图像帧,在至少第一图像帧中对象4′的像素区域尺寸5低于规定了像素区域尺寸的对象类型和/或属性类型特定阈值,低于该阈值的至少第一对象属性41被定义为不能检测的,例如不能人工检测的。因此,如图2a中示出的,视频序列的至少第一图像帧fp/s(这里示为与先前任意时间戳t-1相关联的先前图像帧fp/s)可以被识别,其中相应的对象4′(例如由于较远)具有小于阈值的像素区域尺寸5,该阈值限定了对象4所属的对象类型的对象属性(和/或至少第一对象属性41所属的属性类型的对象属性)何时被认为和/或定义为不再可被例如人类注释者识别的极限。因此,可以挑选出一个或多个图像帧fp/s,其中已经用从原始注释分配的至少第一对象属性41对相应对象4′进行了注释,并且该相应对象4′还具有已经减小到所定义的对象属性可检测性极限以下的像素区域尺寸5,因此已经对该图像帧fp/s进行了超出公知和/或普通(例如人工)感知和/或可检测性的注释。
图像帧fp/s中的对象4′的像素区域尺寸5可以以任何可行的(例如已知的)方式来建立。此外,至少第一先前和/或后续图像帧可以以任何可行的方式来识别,例如通过估计和/或评估的方式,并且识别图像帧的数量可以是任何可行的数量。此外,对象类型可以由任何可行的(例如已知的)对象(例如车辆、人、交通指示牌等)类型来表示,并且类似地,属性类型由任何可行的(例如已知的)对象属性(例如颜色、文本大小、对象损坏等)类型来表示。因此,(一个或多个)对象类型特定阈值可以随相应的可行对象类型而变化,并且类似地,(一个或多个)属性类型特定阈值随相应的可行对象属性类型而变化。低于规定了像素区域尺寸的相应的对象类型和/或属性类型特定阈值的至少第一对象属性41被定义为不能检测的,例如不能人工检测的,该阈值可以相应地以任何可行的方式被设定为被认为相关的像素区域尺寸。例如,针对例如类型车辆的对象的对象类型特定像素区域尺寸阈值可以不同于针对例如类型交通指示牌的对象的对象类型特定像素区域尺寸阈值。类似地,例如,针对例如类型颜色的属性的属性类型特定像素区域尺寸阈值可以不同于针对例如类型文本大小和/或不同颜色的属性的属性类型特定像素区域尺寸阈值。潜在地,对象类型特定和/或属性类型特定阈值还可以取决于图像捕获设备3的特性,利用该图像捕获设备3捕获和/或捕获了视频序列。
短语“识别所述先前和/或后续图像帧中的至少第一图像帧”通篇可以指“过滤出和/或筛选出所述先前和/或后续图像帧中的至少第一图像帧”和/或“从对一个或多个所述图像帧的评估中识别所述先前和/或后续图像帧中的至少第一图像帧”,而“所述至少第一对象属性被定义为不能检测的,例如不能人工检测的”通篇可以指“所述至少第一对象属性被认为是不能检测或基本上不能检测的,例如不能人工检测或基本上不能人工检测的”和/或“所述至少第一对象属性被定义为例如对于人工不可识别的、不可辨识的、不清晰的和/或不可感知的”。此外,短语“对象的像素区域尺寸”可以指“至少第一先前和/或后续图像帧中的对象的像素区域尺寸”、“对象的像素区域分辨率”,并且根据示例,还可以指“至少第一可预定方向上的对象的像素区域尺寸”和/或“无障碍或基本无障碍时对象的像素区域尺寸”。此外,“低于对象类型和/或属性类型特定阈值”可以指“已经减小到对象类型和/或属性类型特定阈值以下”、“在取决于对象类型和/或属性类型的阈值以下”、“在对象类型和/或属性类型特定极限和/或对象属性可检测性极限以下”和/或“在对象类型和/或属性类型特定的和潜在的另外的图像捕获设备特征特定的阈值以下”。另一方面,“低于规定了像素区域尺寸的对象类型和/或属性类型特定阈值,所述至少第一对象属性被定义为不能检测的,例如不能人工检测的”可以指“规定了最大像素区域尺寸的对象类型和/或属性类型特定阈值”。此外,根据一个示例,“对象的像素区域尺寸低于规定了像素区域尺寸的对象类型和/或属性类型特定阈值,低于该阈值的所述至少第一对象属性被定义为不能检测的,例如不能人工检测的”可以指“对象的像素区域尺寸满足规定像素区域尺寸的对象类型和/或属性类型特定标准,针对该对象类型和/或属性类型特定标准,所述至少第一对象属性被定义为不能检测的,例如不能人工检测的”。
附加地或替代地,注释系统1还(例如凭借帧识别单元104)适用于和/或被配置为识别先前和/或后续图像帧fp/s中的至少第一图像帧,其中对象4′的至少可预定部分的像素中的运动模糊6超过规定了运动模糊水平的运动模糊阈值,高于该阈值的至少第一对象属性41被定义为不能检测的,例如不能人工检测的。因此,如图2b中示出的,视频序列的至少第一图像帧fp/s(这里是被示为与后续任意时间戳t1相关联的后续图像帧fp/s)可以被识别,其中,例如由于相对运动和/或较高的角速度,相应对象4′在例如该对象4′的重要部分的像素中具有超过阈值的运动模糊,该阈值定义了当运动模糊被认为和/或被定义为使得至少第一对象属性41不再可(例如由人工注释者)识别时的极限。因此,可以挑选出一个或多个图像帧fp/s,其中已经用从原始注释分配的至少第一对象属性41对相应对象4′进行了注释,并且该相应对象4′还具有已经增加到所定义的对象属性可检测性极限以上的运动模糊的像素,因此已经对该图像帧fp/s进行了超出公知和/或普通(例如人工)感知和/或可检测性的注释。
也就是说,可能出现在利用(例如搭载在车辆2上的)图像捕获设备3捕获的图像帧中的一种公知现象是(一个或多个)图像帧中的运动模糊,例如在涉及捕获对象4′的像素区域中的运动模糊。捕获对象4′的这种运动模糊可以例如在(例如搭载在车辆2上的)图像捕获设备3经过对象4′时出现,和/或在图像捕获设备3(例如搭载在行驶于环岛中的车辆2上时)较快速地转弯而捕获对象4′时出现,其中,图像捕获设备3相对于对象4′的角速度(即角度变化率)可能较高。因此,运动模糊可以例如由(例如搭载在车辆2上的)图像捕获设备3相对于对象4′较快速地移动、转弯和/或旋转而产生,和/或由对象4′(例如由另一车辆表示)相对于图像捕获设备3较快速地移动而产生。运动模糊还可以附加地和/或替代地例如由(例如搭载在驾驶于凸块上、坑洼中和/或粗糙表面(例如,砾石和/或颠簸道路)上的车辆2上的)图像捕获设备3暴露于(一个或多个)急促运动和/或(一个或多个)振动而产生。此外,运动模糊还可以附加地和/或替代地例如由图像捕获设备3聚焦于除物体4′以外的其他地方(例如聚焦于诸如(一个或多个)对象之类的其他地方和/或焦点偏离)而产生,由图像捕获设备3透镜缺陷(例如透镜柔化,其例如可以使图像帧的(一个或多个)拐角柔化)而产生,和/或由图像捕获设备3参数(例如光圈、快门速度和/或ISO等)例如暂时地(例如在透镜光晕的情况下)发生错误而产生。图像帧fp/s中的对象4′的至少可预定部分的像素中的运动模糊可以以任何可行的(例如已知的)方式来建立,例如基于跟踪对象4以检测和/或预测较大的角速度,并且还例如考虑捕获和/或捕获了视频序列的图像捕获设备3的特性。此外,至少第一先前和/或后续图像帧可以以任何可行的方式来识别,例如通过估计和/或评估的方式,并且识别图像帧的数量可以是任何可行的数量。此外,至少第一对象属性41在规定运动模糊水平的运动模糊阈值以上被定义为不能检测的,例如不能人工检测的,该运动模糊阈值可以以任何可行的方式被设定为被认为相关的水平。
短语“对象的至少可预定部分的像素中的运动模糊”可以指“至少第一先前和/或后续图像帧中的对象的至少可预定部分的像素中的运动模糊”,而“运动模糊”在该上下文中根据一个示例可以指“相对运动引起的运动模糊”和/或“角速度引起的运动模糊”。此外,“超过运动模糊阈值”可以指“已经超过运动模糊阈值”和/或“超过运动模糊极限和/或对象属性可检测性极限”。另一方面,“所述至少第一对象属性在规定运动模糊水平的运动模糊阈值以上被定义为不能检测的,例如不能人工检测的”可以指“规定最小运动模糊水平的运动模糊阈值”。根据一个示例,“对象的至少可预定部分的像素中的运动模糊超过规定了运动模糊水平的运动模糊阈值,高于该阈值的所述至少第一对象属性被定义为不能检测的,例如不能人工检测的”可以指“对象的至少可预定部分的像素中的运动模糊满足规定运动模糊的运动模糊标准,该运动模糊标准规定所述至少第一对象属性被定义为不能检测的,例如不能人工检测的”。
此外,附加地或替代地,注释系统1还(例如凭借帧识别单元104)适用于和/或被配置为识别先前和/或后续图像帧fp/s中的至少第一图像帧,其中对象4′的至少可预定部分的像素中的明度7超过规定了明度水平的明度阈值,高于该阈值的至少第一对象属性41被定义为不能检测的,例如不能人工检测的。因此,如图2c中示出的,视频序列的至少第一图像帧fp/s(这里是被示为与后续任意时间戳t1相关联的后续图像帧fp/s)可以被识别,其中,相应对象4′例如由于阳光和/或眩光和/或较快的照明变化,在该对象4′的例如重要部分的像素中具有超过阈值的明度和/或潜在的明度变化率,该阈值定义了当明度和/或潜在的明度变化率被认为和/或被定义为使得至少第一对象属性41不再可(例如由人工注释者)识别时的极限。因此,可以挑选出一个或多个图像帧fp/s,其中已经用从原始注释分配的至少第一对象属性41对相应对象4′进行了注释,并且该相应对象4′还具有已经增加到所定义的对象属性可检测性极限之外的明度和/或潜在的明度变化率的像素,因此已经对该图像帧fp/s进行了超出公知和/或普通(例如人工)感知和/或可检测性的注释。
也就是说,可能出现在利用(例如搭载在车辆2上的)图像捕获设备3捕获的图像帧中的公知现象是(一个或多个)图像帧中的明度和/或较快速的明度变化率,例如在(一个或多个)图像帧涉及捕获对象4′的像素区域中的明度和/或较快速的明度变化率。捕获对象4′的这种明度和/或较快速的明度变化率可以例如在(例如搭载在车辆2上的)图像捕获设备3受到阳光和/或眩光和/或较快速地变化的照明时出现,例如在离开和/或进入较暗的隧道时出现。图像帧fp/s中的对象4′的至少可预定部分的像素中的明度和/或潜在的明度变化率可以以任何可行的(例如已知的)方式来建立,例如基于像素测量和/或跟踪对象4以检测和/或预测较大的明度变化率。此外,至少第一先前和/或后续图像帧可以以任何可行的方式来识别,例如通过估计和/或评估的方式,并且识别图像帧的数量可以是任何可行的数量。此外,至少第一对象属性41在规定明度水平和/或潜在的明度变化率水平的明度阈值和/或潜在的明度变化率阈值以上被定义为不能检测的,例如不能人工检测的,该明度阈值和/或潜在的明度变化率阈值可以以任何可行的方式被设定为被认为相关的水平。
短语“对象的至少可预定部分的像素明度”可以指“至少第一先前和/或后续图像帧中的对象的至少可预定部分的像素明度”,而根据示例的“明度”可以指“明度变化率”。此外,“超过明度阈值”可以指“已经超过明度阈值”和/或“超过明度极限和/或对象属性可检测性极限”。另一方面,“所述至少第一对象属性在规定明度水平的明度阈值以上被定义为不能检测的,例如不能人工检测的”可以指“规定最小明度水平的明度阈值”。根据一个示例,“对象的至少可预定部分的像素中的明度超过规定了明度水平的明度阈值,高于该阈值的所述至少第一对象属性被定义为不能检测的,例如不能人工检测的”可以指“对象的至少可预定部分的像素中的明度满足规定明度的明度标准,该明度标准规定所述至少第一对象属性被定义为不能检测的,例如不能人工检测的”。
如以示例性的方式在示例性的图1中示出的,注释系统1还(例如,凭借注释数据指定单元105)适用于和/或被配置为指定被识别的至少第一图像帧为注释数据。因此,以有效的方式实现了注释图像帧的数据集:从原始的例如单个注释图像帧f0中导出和/或生成,覆盖了对象4′的注释(包括被分配的对象属性41),该被分配的对象属性41对于在主要图像帧中的相应对象属性被认为是不可识别的。因此,提供了和/或支持了扩展的自动生成的注释数据集(例如旨在用于计算机视觉机器学习算法训练,该算法训练例如旨在用于ADS 21),该数据集覆盖了传统上例如基于每个图像的基础将不可能注释的图像帧。因此,根据一个示例,利用引入的概念,通过使用如本文所描述的视频序列及其例如人工注释图像帧f0,可以创建不受例如人类感知限制的注释的数据集。
被识别的至少第一图像帧可以以任何可行的方式指定,包括例如被提取和/或被存储。因此,短语“指定[……]为注释数据”可以指“收集、采集、提供、存储、提取、标记、标示、标识和/或分配[……]为注释数据”,而“指定被识别的至少第一图像帧”可以指“指定被识别的至少第一图像帧中的至少第一对象属性和对象”和/或“指定被识别的至少第一图像帧的至少一部分”。根据一个示例,“指定[……]为注释数据”还可以指“指定[……]为用于和/或旨在用于计算机视觉机器学习算法训练的注释数据”,而“机器学习算法”通篇可以指“机器学习模型”。随后,可选地,如在前文中所描述的以及如以示例性的方式在示例性的图1中示出的,注释系统1因此还可以(例如凭借可选的算法训练单元106)适用于和/或被配置为基于注释数据来训练计算机视觉机器学习算法。因此,可以至少部分地使用指定注释数据集的至少一部分来训练一个或多个计算机视觉机器学习模型。因此,这种训练可以以例如时间和/或成本有效的方式来实现。提供如本文所建议的注释数据集并且进一步使用所述数据集来训练(一个或多个)计算机视觉机器学习算法,可以例如最终产生移除了例如作为(一个或多个)计算机视觉机器学习算法的根本限制因素的人类感知的(一个或多个)计算机视觉机器学习算法。此外,可选地,并且如上文简要描述的,训练可以包括(和/或可选的算法训练单元106可以适用于和/或被配置为)训练被配置为由ADS 21部署的计算机视觉机器学习算法。因此,在训练中的计算机视觉机器算法旨在用于自动驾驶应用,例如用于ADS 21的感知系统。计算机视觉机器学习算法的可选训练(可选地可以被配置为由ADS 21部署)可以发生在任何可行的位置,例如在车外实体和/或设施处。然而,可选地,训练可以包括(和/或可选的算法训练单元106可以适用于和/或被配置为)在车辆2上执行边缘训练。因此,计算机视觉机器学习算法的训练可以在例如配备ADS的车辆2上进行,可以最终支持涉及配备ADS的车辆的车队的联合方法,其中一个或多个车辆2的视觉机器学习算法可以被提供给外部服务器,以合并成全局计算机视觉机器学习算法,其随后可以被推送到所述车队。上文讨论的(一个或多个)计算机视觉机器学习算法可以例如处于阴影模式、正在训练和/或当前部署,并且还可以(或可以不)由先前讨论的搭载在例如配备ADS的车辆2上的可选的计算机视觉机器学习算法来表示,对象4的注释可以可选地从该可选的计算机视觉机器学习算法中导出。
如还在图1中示出的,注释系统1包括注释确定单元101、对象跟踪单元102、属性分配单元103、帧识别单元104、注释数据指定单元105和可选的算法训练单元106,已经在上文更详细地描述了所有这些。此外,用于支持对交通环境相关的视频序列的图像帧中的对象的注释的本文实施例可以通过一个或多个处理器(例如,处理器107,例如,由至少第一中央处理单元(CPU)、至少第一图形处理单元(GPU)、至少第一张量处理单元(TPU)、和/或至少第一现场可编程门阵列(FPGA)表示)和用于执行本文实施例的功能和动作的计算机程序代码来实现。所述程序代码还可以作为计算机程序产品提供,例如,以承载计算机程序代码的数据载体的形式,当本文的实施例被加载到注释系统1中时,该计算机程序代码用于执行本文的实施例。一种这样的载体可以采用CD/DVD ROM盘和/或硬盘驱动器的形式,然而对于其他的数据载体也是可行的。此外,计算机程序代码可以作为服务器上的纯程序代码提供,并且被下载到注释系统1。注释系统1还可以包括存储器108,存储器108包括一个或多个存储器单元。存储器108可选地包括高速随机存取存储器(例如DRAM、SRAM、DDR RAM)或其他随机存取固态存储器设备,并且还可选地包括非易失性存储器(例如一个或多个磁盘存储设备、光盘存储设备、闪存设备或者其他非易失性固态存储设备)。此外,存储器108可以被布置为用于存储例如信息,并且还被布置为存储数据、配置、调度和应用,以当在注释系统1中被执行时执行这些方法。例如,计算机程序代码可以被实现在被存储在嵌入式处理器107的闪存108中的固件中,和/或可以例如从服务器被无线地下载。此外,注释确定单元101、对象跟踪单元102、属性分配单元103、帧识别单元104、注释数据指定单元105、可选的算法训练单元106、可选的处理器107和/或可选的存储器108可以至少部分地被包括在车辆2之外的例如涉及一个或多个服务器的一个或多个系统109中,和/或被包括在一个或多个节点110(例如车辆2(例如在ADS 21中的和/或与ADS 21相关联的)的ECU)中。因此应当理解,所描述的解决方案的部分可以在位于车辆2外部的系统109中实现,或者在车辆2内部和外部的组合中实现,例如在分布式系统和/或解决方案中实现,例如还在所谓的云解决方案中实现。本领域技术人员还将理解,上述的所述单元101至106以及本文描述的任何其他单元、接口、系统、控制器、模块、设备、元件、特征等可以指、包括、包含和/或在以下项中实现或者由以下项实现:模拟和数字电路的组合、和/或配置有软件和/或固件的一个或多个处理器,该一个或多个处理器例如被存储在诸如存储器108之类的存储器中,该软件和/或固件由诸如处理器107之类的一个或多个处理器执行时执行如本文描述的操作。这些处理器中的一个或多个处理器以及其它数字硬件可以被包括在单个专用集成电路(ASIC)或若干处理器中,并且各种数字硬件可以被分布在若干单独的组件中,无论是单独地被封装还是被组装成片上系统(SoC)。
图3是根据本公开的实施例的描绘了由注释系统1执行的示例性方法的流程图。所述方法用于支持对交通环境相关的视频序列的图像帧中的对象的注释。可以被连续重复的示例性方法包括在图1和图2的支持下讨论的以下动作中的一个或多个动作。此外,这些动作可以以任何合适的顺序被执行和/或一个或多个动作可以同时被执行和/或在适用时以交替的顺序被执行。
动作1001
在动作1001中,注释系统1(例如在注释确定单元101的支持下)确定对视频序列的图像帧f0中的对象4的注释,该注释包括对象4的至少第一属性41。
可选地,动作1001可以包括(和/或注释确定单元101可以可选地适用于和/或被配置为)从车辆2上搭载的计算机视觉机器学习算法导出注释。
动作1002
在动作1002中,注释系统1(例如在对象跟踪单元102的支持下)通过视频序列跟踪对象4。
动作1003
在动作1003中,注释系统1(例如在属性分配单元103的支持下)将至少第一对象属性41分配给视频序列的一个或多个先前和/或后续图像帧fp/s中的对象4′。
可选地,动作1003可以包括(和/或属性分配单元103可以可选地适用于和/或被配置为)在所确定的对象4的注释满足可预定的置信度标准的情况下执行分配。
动作1004
在动作1004中,注释系统1(例如在帧识别单元104的支持下)识别先前和/或后续图像帧fp/s中的至少第一图像帧,其中:
对象4′的像素区域尺寸5低于规定了像素区域尺寸的对象类型和/或属性类型特定阈值,低于该阈值的至少第一对象属性41被定义为不能检测的,例如不能人工检测的;和/或
对象4′的至少可预定部分的像素中的运动模糊6超过规定了运动模糊水平的运动模糊阈值,高于该阈值的至少第一对象属性41被定义为不能检测的,例如不能人工检测的;和/或
对象4′的至少可预定部分的像素中的明度7超过规定了明度水平的明度阈值,高于该阈值的至少第一对象属性41被定义为不能检测的,例如不能人工检测的。
动作1005
在动作1005中,注释系统1(例如在注释数据指定单元105的支持下)指定被识别的至少第一图像帧为注释数据。
动作1006
在可选的动作1006中,注释系统1可以(例如在可选的算法训练单元106的支持下)基于注释数据来训练计算机视觉机器学习算法。
可选地,动作1006可以包括(和/或算法训练单元106可以可选地适用于和/或被配置为)训练被配置为由ADS 21部署的计算机视觉机器学习算法。
此外,可选地,动作1006可以包括(和/或算法训练单元106可以可选地适用于和/或被配置为)在车辆2上执行边缘训练。
本领域技术人员认识到,本公开绝不限于上述优选实施例。相反,在所附权利要求的范围内,许多修改和变化是可能的。还应当注意,附图不一定是按比例的,并且为了清楚起见,某些特征的尺寸可能被放大。而是,重点在于说明本文的实施例的原理。附加地,在权利要求中,词语“包括”不排除其他元件或步骤,并且不定冠词“一”或“一个”不排除多个。

Claims (15)

1.一种由注释系统(1)执行的方法,用于支持交通环境相关的视频序列的图像帧中的对象的注释,所述方法包括:
确定(1001)对所述视频序列的图像帧(f0)中的对象(4)的注释,所述注释包括所述对象(4)的至少第一属性(41);
通过所述视频序列跟踪(1002)所述对象(4);
将所述至少第一对象属性(41)分配(1003)给所述视频序列的一个或多个先前和/或后续图像帧(fp/s)中的对象(4′);
识别(1004)所述先前和/或后续图像帧(fp/s)中的至少第一图像帧,在所述至少第一图像帧中:
所述对象(4′)的像素区域尺寸(5)低于规定了像素区域尺寸的对象类型和/或属性类型特定阈值,低于该阈值的所述至少第一对象属性(41)被定义为不能检测的,例如不能人工检测的;和/或
所述对象(4′)的至少预定部分的像素中的运动模糊(6)超过规定了运动模糊水平的运动模糊阈值,高于该阈值的所述至少第一对象属性(41)被定义为不能检测的,例如不能人工检测的;和/或
所述对象(4′)的至少预定部分的像素中的明度(7)超过规定了明度水平的明度阈值,高于该阈值的所述至少第一对象属性(41)被定义为不能检测的,例如不能人工检测的;以及
指定(1005)被识别的所述至少第一图像帧为注释数据。
2.根据权利要求1所述的方法,还包括:
基于所述注释数据来训练(1006)计算机视觉机器学习算法。
3.根据权利要求2所述的方法,其中,所述训练(1006)包括训练计算机视觉机器学习算法,该算法被配置为要由自动驾驶系统ADS(21)部署。
4.根据权利要求1至3中任一项所述的方法,其中,所述确定(1001)对对象(4)的注释包括:从搭载在车辆(2)上的计算机视觉机器学习算法导出所述注释。
5.根据引用权利要求3的权利要求4所述的方法,其中,所述训练(1006)包括:在所述车辆(2)上执行边缘训练。
6.根据权利要求1至5中任一项所述的方法,其中,所述将所述对象(4)的至少第一对象属性(41)分配(1003)给一个或多个先前和/或后续图像帧(fp/s)中的对象(4′)包括:在所确定的所述对象(4)的注释满足预定的置信度标准的情况下执行所述分配。
7.一种注释系统(1),用于支持交通环境相关的视频序列的图像帧中的对象的注释,所述注释系统(1)包括:
注释确定单元(101),用于确定(1001)对所述视频序列的图像帧(f0)中的对象(4)的注释,所述注释包括所述对象(4)的至少第一属性(41);
对象跟踪单元(102),用于通过所述视频序列跟踪(1002)所述对象(4);
属性分配单元(103),用于将所述至少第一对象属性(41)分配(1003)给所述视频序列的一个或多个先前和/或后续图像帧(fp/s)中的对象(4′);
帧识别单元(104),用于识别(1004)所述先前和/或后续图像帧(fp/s)中的至少第一图像帧,在所述至少第一图像帧中:
所述对象(4′)的像素区域尺寸(5)低于规定了像素区域尺寸的对象类型和/或属性类型特定阈值,低于该阈值的所述至少第一对象属性(41)被定义为不能检测的,例如不能人工检测的;和/或
所述对象(4′)的至少预定部分的像素中的运动模糊(6)超过规定了运动模糊水平的运动模糊阈值,高于该阈值的所述至少第一对象属性(41)被定义为不能检测的,例如不能人工检测的;和/或
所述对象(4′)的至少预定部分的像素中的明度(7)超过规定了明度水平的明度阈值,高于该阈值的所述至少第一对象属性(41)被定义为不能检测的,例如不能人工检测的;以及
注释数据指定单元(105),用于指定(1005)被识别的所述至少第一图像帧为注释数据。
8.根据权利要求7所述的注释系统系统(1),还包括:
算法训练单元(106),用于基于所述注释数据训练(1006)计算机视觉机器学习算法。
9.根据权利要求8所述的注释系统(1),其中,所述算法训练单元(106)适用于和/或被配置为训练计算机视觉机器学习算法,该算法被配置为要由自动驾驶系统ADS(21)部署。
10.根据权利要求7至9中任一项所述的注释系统,其中,所述注释确定单元(101)适用于和/或被配置为从车辆(2)上搭载的计算机视觉机器学习算法导出所述注释。
11.根据引用权利要求9的权利要求10所述的注释系统(1),其中,所述算法训练单元(106)适用于和/或被配置为在所述车辆(2)上执行边缘训练。
12.根据权利要求7至11中任一项所述的注释系统(1),其中,所述属性分配单元(103)适用于和/或被配置为在所确定的所述对象(4)的注释满足预定的置信度标准的情况下执行所述分配。
13.一种装置,例如车外系统(109)和/或车辆(2),所述装置包括根据权利要求7至12中任一项所述的注释系统。
14.一种包括计算机程序的计算机程序产品,所述计算机程序包括计算机程序代码模块,所述计算机程序代码模块被布置为使计算机或处理器执行根据权利要求1至6中任一项所述的方法的步骤,所述计算机程序产品被存储在计算机可读介质或载波上。
15.一种非易失性计算机可读存储介质,其上存储有根据权利要求14所述的计算机程序产品。
CN202310814817.1A 2022-07-06 2023-07-05 对图像帧中的对象的注释 Pending CN117372916A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP22183357.7A EP4303835A1 (en) 2022-07-06 2022-07-06 Annotation of objects in image frames
EP22183357.7 2022-07-06

Publications (1)

Publication Number Publication Date
CN117372916A true CN117372916A (zh) 2024-01-09

Family

ID=82702915

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310814817.1A Pending CN117372916A (zh) 2022-07-06 2023-07-05 对图像帧中的对象的注释

Country Status (3)

Country Link
US (1) US20240013560A1 (zh)
EP (1) EP4303835A1 (zh)
CN (1) CN117372916A (zh)

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020112213A2 (en) * 2018-09-13 2020-06-04 Nvidia Corporation Deep neural network processing for sensor blindness detection in autonomous machine applications
WO2022109000A1 (en) * 2020-11-17 2022-05-27 Uatc, Llc Systems and methods for video object segmentation

Also Published As

Publication number Publication date
EP4303835A1 (en) 2024-01-10
US20240013560A1 (en) 2024-01-11

Similar Documents

Publication Publication Date Title
RU2701051C2 (ru) Способ, система и машиночитаемые запоминающие носители для выявления объектов с использованием рекуррентной нейронной сети и сцепленной карты признаков
CN111626208B (zh) 用于检测小目标的方法和装置
US10747996B2 (en) Identification method, identification apparatus, classifier creating method, and classifier creating apparatus
CN106980813B (zh) 机器学习的注视生成
CN112069643B (zh) 一种自动驾驶仿真场景生成方法及装置
CN109389026B (zh) 车道检测方法和设备
JP2018081545A (ja) 画像データ抽出装置及び画像データ抽出方法
Zakaria et al. Lane detection in autonomous vehicles: A systematic review
JP2023504028A (ja) マップデータの更新
US10754338B2 (en) Controlling an autonomous vehicle based upon labels assigned to objects represented in sensor data
WO2020007589A1 (en) Training a deep convolutional neural network for individual routes
CN113112524B (zh) 自动驾驶中移动对象的轨迹预测方法、装置及计算设备
EP4145398A1 (en) Systems and methods for vehicle camera obstruction detection
CN117372916A (zh) 对图像帧中的对象的注释
CN109144052B (zh) 用于自动驾驶车辆的导航系统及其方法
Almeida et al. A traffic light recognition device
EP4224433A1 (en) Training a perception model for a vehicle
CN117912289B (zh) 一种基于图像识别的车辆群行驶预警方法、装置及系统
US20240144696A1 (en) Road User Information Determination Based on Image and Lidar Data
US20230024799A1 (en) Method, system and computer program product for the automated locating of a vehicle
Christodoulou Crosswalk identification for decision making
Krajewski et al. Drone-based Generation of Sensor Reference and Training Data for Highly Automated Vehicles
WO2020073272A1 (en) Snapshot image to train an event detector
WO2020073270A1 (en) Snapshot image of traffic scenario
Rahman Implementation of ADAS and Autonomy on UNLV Campus

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication