CN112183180A - 用于二维图像数据的三维对象定边界的方法和装置 - Google Patents
用于二维图像数据的三维对象定边界的方法和装置 Download PDFInfo
- Publication number
- CN112183180A CN112183180A CN202010624611.9A CN202010624611A CN112183180A CN 112183180 A CN112183180 A CN 112183180A CN 202010624611 A CN202010624611 A CN 202010624611A CN 112183180 A CN112183180 A CN 112183180A
- Authority
- CN
- China
- Prior art keywords
- dimensional
- image
- operable
- point cloud
- response
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 230000004044 response Effects 0.000 claims abstract description 44
- 239000003550 marker Substances 0.000 claims abstract description 21
- 238000004422 calculation algorithm Methods 0.000 claims description 19
- 238000001514 detection method Methods 0.000 claims description 16
- 230000003044 adaptive effect Effects 0.000 claims description 7
- 238000003708 edge detection Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 description 12
- 230000008569 process Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 238000013527 convolutional neural network Methods 0.000 description 5
- 238000005259 measurement Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 239000002131 composite material Substances 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000001010 compromised effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000004806 packaging method and process Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/64—Three-dimensional objects
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W40/00—Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models
- B60W40/02—Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models related to ambient conditions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/2163—Partitioning the feature space
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/13—Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/30—Determination of transform parameters for the alignment of images, i.e. image registration
- G06T7/33—Determination of transform parameters for the alignment of images, i.e. image registration using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/60—Analysis of geometric attributes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/60—Analysis of geometric attributes
- G06T7/66—Analysis of geometric attributes of image moments or centre of gravity
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W2420/00—Indexing codes relating to the type of sensors based on the principle of their operation
- B60W2420/40—Photo, light or radio wave sensitive means, e.g. infrared sensors
- B60W2420/403—Image sensing, e.g. optical camera
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W2420/00—Indexing codes relating to the type of sensors based on the principle of their operation
- B60W2420/40—Photo, light or radio wave sensitive means, e.g. infrared sensors
- B60W2420/408—Radar; Laser, e.g. lidar
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W30/00—Purposes of road vehicle drive control systems not related to the control of a particular sub-unit, e.g. of systems using conjoint control of vehicle sub-units
- B60W30/14—Adaptive cruise control
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0231—Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10004—Still image; Photographic image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10028—Range image; Depth image; 3D point clouds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20092—Interactive image processing based on input by user
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30248—Vehicle exterior or interior
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Geometry (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Automation & Control Theory (AREA)
- Mathematical Physics (AREA)
- Transportation (AREA)
- Mechanical Engineering (AREA)
- Image Analysis (AREA)
- Traffic Control Systems (AREA)
Abstract
提供了用于2D图像数据的3D对象定边界的方法和装置,以用于装备有辅助驾驶的车辆。在各个实施例中,一种装置包括:摄像机,其可操作以捕获视场的二维图像;激光雷达,其可操作以生成视场的点云;处理器,其可操作以响应于点云生成视场的三维表示,以检测三维表示中的对象,以响应于该对象生成三维边界框,以将三维边界框投影到二维图像上以生成标记的二维图像;以及车辆控制器,以响应于标记的二维图像来控制车辆。
Description
技术领域
本公开总体上涉及配备有高级驾驶员辅助系统(ADAS)的车辆上的对象检测系统。更具体地,本公开的各方面涉及用于为自动驾驶任务检测和分类图像内的对象的系统、方法和设备。
背景技术
自动驾驶车辆是能够在很少或没有用户输入的情况下感知其环境并进行导航的车辆。自动驾驶车辆使用诸如雷达、激光雷达、图像传感器等之类的传感设备来感知其环境。自动驾驶车辆系统还使用来自全球定位系统(GPS)技术、导航系统、车辆间通信、车辆-基础设施间技术和/或线控驾驶系统的信息来导航车辆。
车辆自动化已被分类为从零(对应于完全人控制的无自动化)到五(对应于无人为控制的全自动)的数字级别。各种自动驾驶员辅助系统,例如巡航控制、自适应巡航控制和停车辅助系统,对应较低的自动化级别,而真正的“无人驾驶”车辆对应较高的自动化级别。
某些自动驾驶车辆可能包括使用传感器数据对对象进行分类的系统。这些系统可以识别和分类周围环境中的对象,包括位于车辆行驶路径中的对象。在这些系统中,搜索从安装在车辆上的摄像机获得的整个图像用于需要分类的关注对象。这种用于对象分类的方法在计算上是密集的且昂贵的,这使其缓慢且非常耗时并且遭受对象检测问题的困扰。基于人为控制的成像对象检测模型需要大量的人为标记数据进行训练,这可能需要大量劳力并且容易出错。
因此,期望提供可以加速对图像内的数据标记、训练和对象进行分类的过程的系统和方法。此外,结合附图以及前述技术领域和背景技术,根据随后的详细描述,本发明的其他期望特征和特性将变得显而易见。
发明内容
本文公开了用于提供车辆感测和控制系统的对象检测方法和系统以及相关的控制逻辑,制造此类系统的方法和用于操作此类系统的方法,以及配备有车载传感器和控制系统的机动车辆。此外,本文公开了用于通过使用来自点云数据的3D信息来在图像中生成准确的3D对象标记的方法和途径。
根据各个实施例,提供了一种装置,包括摄像机,其可操作以捕获视场的二维图像;激光雷达,其可操作以生成视场的点云;处理器,其可操作以响应于点云生成视场的三维表示,以检测三维表示内的对象,以响应于对象生成三维边界框(bounding box),以将三维边界框投影到二维图像上以生成标记的二维图像;以及车辆控制器,以响应于标记的二维图像来控制车辆。
根据另一方面,视场的三维表示是三维体积的体素化表示。
根据本发明的另一方面,三维边界框表示对象的质心、长度、宽度和高度。
根据本发明的另一方面,所述处理器还可操作以响应于边缘检测而将所述图像对准所述点云。
根据另一方面,处理器还可操作以校准并共同配准(co-register)点云中的点和图像中的像素。
根据另一方面,车辆控制器可操作以执行自适应巡航控制算法。
根据另一方面,标记的二维图像用于确认基于图像的对象检测方法。
根据另一方面,响应于卷积神经网络来检测对象。
根据另一方面,一种方法包括:经由摄像机接收二维图像;经由激光雷达接收点云;响应于所述点云而用处理器生成三维空间;用处理器检测三维空间内的对象;响应于该对象用处理器生成边界框;用处理器将边界框投影到二维图像中以生成标记的二维图像;以及响应于标记的二维图像,经由车辆控制器控制车辆。
根据另一方面,二维图像和点云具有重叠的视场。
根据另一方面,响应于自适应巡航控制算法来控制车辆。
根据另一方面,其中所述对象是响应于卷积神经网络而被检测的。
根据另一方面,标记的二维图像被标记有边界框的至少一个投影,并且其中,边界框指示检测到的对象。
根据另一方面,处理器还可操作以校准和共同配准点云中的点和图像中的像素。
根据另一方面,处理器还可操作以校准和共同配准点云中的点、图像中的像素以及经由全球定位系统接收的位置坐标。
根据另一方面,一种车辆中的车辆控制系统,包括:激光雷达,其可操作以生成视场的点云;摄像机,其可操作以捕捉视场的图像;处理器,其操作以响应于点云生成三维表示并检测三维表示中的对象,处理器还可操作以响应于对象生成边界框并将边界框投影到图像上以生成标记图像;以及车辆控制器,以响应于标记的图像来控制车辆。
根据另一方面,提供一种存储器,其中,所述处理器可操作以将所标记的图像存储在所述存储器中,并且所述车辆控制器可操作以从所述存储器中检索所标记的图像。
根据另一方面,三维表示是体素化三维表示。
根据另一方面,标记的图像是二维图像,该二维图像具有覆盖在图像上的边界框的二维表示。
根据另一方面,标记的图像用于训练视觉对象检测算法。
根据以下结合附图对优选实施例的详细描述,本公开的上述优点以及其他优点和特征将变得显而易见。
附图说明
本发明的上述和其他特征和优点以及实现它们的方式将变得更加显而易见,并且通过参考以下结合附图对本发明的实施例的描述,可以更好地理解本发明,在附图中。
图1示出了根据本公开的实施例的用于从二维(2D)图像数据的三维(3D)对象定边界的方法和装置的示例性应用;
图2是示出根据本公开的实施例的用于2D图像数据的3D对象定边界的示例性系统的框图;
图3是示出根据本公开的实施例的用于2D图像数据的3D对象定边界的示例性方法的流程图;
图4是示出根据本公开的实施例的用于2D图像数据的3D对象定边界的另一示例性系统的框图;
图5是示出根据本公开的实施例的用于2D图像数据的3D对象定边界的另一示例性方法的流程图。
具体实施方式
在此描述本公开的实施例。但是,应该理解,所公开的实施例仅是示例,其他实施例可以采取各种替代形式。这些附图不一定按比例绘制;一些功能可能被放大或最小化以显示特定部件的详细信息。因此,本文公开的具体结构和功能细节不应被解释为限制性的,而仅是表示性的。参照任一附图示出和描述的各种特征可以与在一个或多个其他附图中示出的特征结合以产生未明确示出或描述的实施例。所示特征的组合为通常应用提供了表示性的实施例。然而,对于特定的应用或实施方式,可能需要与本公开的教导相一致的特征的各种组合和修改。
当前公开的示例性方法和系统是可操作的以通过利用来自激光雷达或其他深度传感器系统的点云数据在二维(2D)图像中生成准确的三维(3D)对象标记,例如边界框。
转到图1,示出了根据本公开的示例性实施例的示例性2D图像数据,该示例性2D图像数据具有3D对象框100,以用于配备有ADAS的车辆中并用于训练ADAS车辆控制系统。响应于视场的2D摄像机捕获110来生成示例性图像数据。图像数据可以从单个摄像机图像捕获,或者可以是从具有重叠视场的两个或更多个摄像机图像生成的合成图像。图像数据可以由高分辨率摄像机或低分辨率摄像机捕获,并耦合(couple)到图像处理器以进行处理,或者可以由摄像机以诸如RAW的图像格式生成图像数据,该图像格式包含来自图像传感器的最少处理的数据,也可以采用压缩和处理后的文件格式,例如JPEG。
在本公开的该示例性实施例中,响应于从激光雷达传感器输出的点云,接收2D图像的相同视场的3D数据。3D点云是由激光雷达系统生成的,该激光雷达系统以已知的角度和高度生成激光脉冲,并在传感器处接收激光脉冲的反射。响应于激光脉冲的发射和接收之间的经过时间来确定激光脉冲的反射点的距离。在视场上以预定的角度间隔重复此过程,直到在视场上生成点云为止。然后可以将该点云用于检测视场内的对象,并在检测到的对象周围生成3D边界框120。
点云中的3D对象检测被用来预测紧密定边界对象的3D边界框120,并且可以包括诸如质心以及该边界框的长度、宽度和高度尺寸的信息。然后,该系统可操作以校准和共同配准点云中的点和图像中的像素,并将3D边界框120从点云空间投影到图像平面。
现在转到图2,示出了示出用于2D图像数据的3D对象定边界的示例性系统200的框图。示例性系统200包括全球定位系统210、激光雷达系统220、摄像机230、处理器250、存储器240和车辆控制器260。GPS接收器210可操作以接收指示卫星位置的多个信号和一时间戳。响应于这些信号,GPS接收器210可操作以确定GPS接收器210的位置。然后,GPS接收器210可操作以将该位置耦合至车辆处理器250。GPS位置信息可用于对准图像数据和点云数据。
该示例性系统配备有多个有源传感器,例如激光雷达系统220和摄像机230,其被实现为自适应驾驶辅助系统(ADAS)的一部分。多个有源传感器可以包括传感器的任何合适的布置和实施方式。这些传感器中的每一个都使用一种或多种技术来感测其视场内的可检测对象。这些可检测对象在本文中称为“目标”。多个有源传感器可以包括远距离传感器、近距离传感器、中距离传感器、近距离传感器以及车辆盲点传感器或侧面传感器。通常,这些传感器的范围由所采用的检测技术确定。另外,对于某些传感器(例如雷达传感器),传感器的范围由传感器发出的能量确定,这可能会受到政府法规的限制。传感器的视场还可能受感测元件本身的配置限制,例如受发射器和检测器的位置限制。
通常,传感器会不断感测,并以相应的循环速率提供有关任何检测到的目标的信息。用于确定和报告这些目标位置的各种参数通常会基于传感器的类型和分辨率而有所不同。通常,传感器的视场通常会明显重叠。因此,每个周期通常可以由一个以上的传感器来感测车辆附近的目标。各个实施例的系统和方法有助于对由一个或多个目标感测的目标的适当评估。
通常,可以通过配置传感器以向合适的处理系统提供数据来实现该系统和方法。该处理系统通常将包括处理器250和存储器240,以存储和执行用于实现该系统的程序。应当理解,这些系统可以结合车辆中的其他系统和/或其他装置和/或作为其一部分来实现。
摄像机230可操作以捕获摄像机视场的2D图像或一系列2D图像。在系统200的示例性实施例中,摄像机230的视场与激光雷达系统220的视场交叠。摄像机可操作以将图像转换成电子图像文件并将该图像文件耦合到处理器250。图像文件可以连续地耦合到车辆处理器250,例如视频流,或者可以响应于处理器250的请求而被发射。
激光雷达系统220可操作以用多个激光脉冲扫描视场,以产生点云。点云是由指示视场内每个点的距离、仰角和方位角的点数据组成的数据集。分辨率更高的点云每度仰角/方位角具有更高的数据点集中度,但需要更长的扫描时间才能收集更多数量的数据点。激光雷达系统220可用于将点云耦合到处理器250。
根据示例性实施例,处理器250可操作以从摄像机230接收图像文件并从激光雷达系统220接收点云,以便为图像内所描绘的对象生成3D对象边界框以供ADAS算法使用。处理器250首先可操作以在点云上执行体素化处理,以生成视场的基于3D体素的表示。体素是在三维网格中表示的值,从而将点云点数据转换为三维体。然后,处理器250可操作以在3D体素空间上执行3D卷积操作,以便表示3D体素空间内的检测到的对象。然后,处理器250响应于对象检测而生成3D边界框,并在2D图像上执行3D几何投影。处理器250然后可操作以在2D图像上生成3D标记以识别并标记图像内的对象。处理器250然后可以操作以将该标记的2D图像存储在存储器中。然后,标记2D图像用于在配备ASAD的车辆中执行ADAS算法。
除了其他车辆操作之外,处理器250还可操作以执行ADAS算法。除了存储在存储器240中的地图信息之外,车辆处理器250还可操作以接收GPS位置信息、图像信息,以确定车辆周围的附近环境的对象地图。车辆处理器250响应于接收到的数据运行ADAS算法,并且可操作以产生控制信号以耦合到车辆控制器260,以便控制车辆的操作。车辆控制器260可操作以接收来自车辆处理器250的控制信号并控制车辆系统,例如转向、油门和制动器。
现在转到图3,示出了图示用于2D图像数据的3D对象定边界的示例性方法300的流程图。方法300首先可操作以从具有视场的摄像机接收3052D图像。2D图像可以由单个摄像机捕获,或者可以是响应于来自具有重叠视场的多个摄像机的多个图像的组合而生成的合成图像。该图像可以是RAW图像格式,也可以是压缩图像格式,例如JPEG。图像可以耦合到处理器,或存储在缓冲存储器中以供处理器访问。
然后,该方法可操作以接收310视场的激光雷达点云。激光雷达点云是响应于一系列发射和接收的光脉冲而生成的,每个脉冲都以已知的仰角和方位角发射。可以响应于具有重叠视场的单个激光雷达收发器或多个激光雷达收发器来生成激光雷达点云。在该示例性实施例中,激光雷达点云可以与从摄像机接收的图像基本重叠。激光雷达点云表示点矩阵,其中每个点都与深度确定相关联。因此,激光雷达点云类似于数字图像,其中像素的颜色信息被响应于透射和反射光脉冲的一半传播时间而确定的深度测量值代替。
然后,该方法可操作以执行315体素化过程以将激光雷达点云转换为三维体。体素是以格点为中心的单位立方体积,类似于二维图像中的像素。单位立方体积的尺寸定义了三维体素化体的分辨率。单位立方体积越小,三维体素化体积的分辨率越高。体素化有时称为3D扫描转换。体素化过程可操作以生成激光雷达点云的位置和深度信息的三维表示。在示例性实施例中,在首先对点云进行体素化之后,道路地面平面上的点可以被删除,道路用户上的其他点(例如车辆和/或行人)可以基于这些点之间的连通性进行聚类(cluster)。例如,同一辆车上的所有点都将标记为相同的颜色。然后,可以计算每个点聚类的中心,并且还可以计算其他尺寸(高度、宽度、长度)。然后,可以生成3D边界框以将该对象定边界到3D空间中。这种无监督学习模型可能不需要像卷积神经网络这样的有监督学习模型通常需要的训练数据。
然后,该方法可操作以在三维体素化体积内执行320对象检测。卷积神经网络可用于检测体积内的对象。一旦检测到对象,则该方法随后可操作以将检测到的对象用3D边界框边界325。3D边界框可以利用质心以及该边界框的长度、宽度和高度尺寸的信息来紧密地边界对象。然后,3D边界框表示对象所占据的体积空间。
然后,该方法可操作以执行330从体素化体积到2D图像空间的3D边界框的3D几何投影。可以响应于沿着主轴线的中心重投影到正交于主轴线的图像播放(image play)上执行投影。该方法可操作以校准和共同配准点云中的点和图像中的像素。然后,将3D边界框从点云空间投影到图像平面。然后,该方法可操作以在表示3D边界框的2D图像中生成335对象标记,以生成标记的2D图像。
然后,该方法可操作以响应于标记的2D图像来控制340车辆。2D图像的处理可能比3D空间的处理在计算上不那么紧张,因此2D处理可以比3D处理更快地执行。例如,标记的2D图像随后可用于ADAS算法,例如车道跟踪、自适应巡航控制等。然后,标记体积可以指示在可能的操作(例如车道变更)期间应避免的附近空间内的对象。
现在转到图4,示出了示出用于2D图像数据的3D对象定边界的示例性系统400的框图。在该示例性实施例中,系统400包括激光雷达系统410、摄像机430、存储器440、处理器420、车辆控制器450、油门控制器460、转向控制器480和制动控制器490。
摄像机430可操作以捕获视场的二维图像。视场可以是移动车辆的前视场。摄像机430可以是一个或多个图像传感器,每个图像传感器可操作以收集图像数据或视场的一部分,所述图像数据或视场的一部分可以被组合在一起以生成视场的图像。摄像机430可以是取决于应用和所需分辨率而操作的高分辨率或低分辨率摄像机。例如,对于5级全自动驾驶车辆,会需要高分辨率摄像机才能满足图像检测要求。在2级车道居中应用中,可以使用较低分辨率的摄像机来维持车道居中操作。摄像机430可以是用于在诸如明亮的阳光或暗阴影的极端照明条件下操作的高动态范围摄像机。
激光雷达系统410可以是激光雷达收发器,该激光雷达收发器可操作以传输光脉冲并从激光雷达系统410视场内的对象接收光脉冲的反射。然后,激光雷达系统410可操作以响应于光脉冲的传播时间来确定到对象的距离。然后,激光雷达系统410可操作以针对多个仰角和方位重复该操作,以便产生视场的点云。响应于响应于光脉冲的发射和接收而测量的仰角和方位角点的数量,建立点云的分辨率。所得的点云是与每个仰角/方位角相关联的深度值的矩阵。
处理器420可以是执行所公开的图像处理操作的图形处理单元或中央处理单元、可操作以执行ADAS功能的车辆控制器,或可操作以执行当前公开的方法的另一系统处理器。处理器420可操作以响应于从激光雷达系统410接收到的点云来生成视场的三维表示。三维表示可以是表示摄像机430和激光雷达410的视场的三维体素化体积。三维表示可以通过使用遮挡剔除(occlusion culling)技术和先前生成的三维体积来估计视场内的对象的固体体积(solid volume),以补偿遮挡。
处理器420可操作以使用卷积神经网络技术或其他用于处理三维体积的技术来检测和定义三维表示内的对象。响应于对象检测,处理器420然后可操作以在每个检测到的对象周围生成三维边界框。三维边界框可以表示对象的质心、长度、宽度和高度。
然后,处理器420可操作以将三维边界框投影到二维图像上以生成标记的二维图像。处理器420可以进一步操作以响应于边缘检测而将图像对准点云。可以使用几何模型在空间上对准图像和点云,然后进行处理,例如基于回归的分辨率匹配算法以内插任何遮挡或丢失数据。处理器420还可操作以校准并共同配准点云中的点和图像中的像素。然后,可以将三维边界框几何地投影到图像平面上到源自摄像机430和激光雷达系统410的投影中心。然后,处理器420可操作以将标记的二维图像存储到存储器440,或者耦合标记的二维图像到车辆控制器450。
车辆控制器450可操作以响应于标记的二维图像来控制对车辆的控制。车辆控制器450可以在执行ADAS算法(例如,自适应巡航控制算法)中使用标记的二维图像。车辆控制器450可操作以生成控制信号以耦合至油门控制器460、转向控制器480和制动控制器490,以便执行ADAS功能。
现在转到图5,示出了示出用于2D图像数据的3D对象定边界的示例性方法500的流程图。在该示例性实施例中,该方法首先可操作以经由摄像机接收505表示视场的二维图像,并且经由激光雷达接收表示视场深度信息的点云。然后,该方法可操作以响应于点云生成510三维空间。然后,该方法可操作以检测515三维空间内的至少一个对象。如果没有检测到对象,则该方法可操作以将图像耦合530到车辆控制器以用于执行ASAD算法。如果检测到对象,则该方法然后在三维空间内的对象周围生成520三维边界框。该方法然后可以是可操作的以接收522用户输入以细化三维边界框。如果接收到用户输入,则该方法可操作以根据用户输入细化524 3D边界框并重新训练三维边界框算法。然后,该方法可操作以在对象周围再生成520三维边界框。如果没有接收522到用户输入,则将三维边界框几何投影525到二维图像上,以生成标记的二维图像。车辆控制器随后使用标记的二维图像来执行530ASAD算法。标记的二维图像可以用于确认视觉对象检测方法的结果,可以用作对象检测的主要数据源,或者可以与其他对象检测结果组合。
应该强调的是,可以对本文所述的实施例进行许多变型和修改,其中的元件应被理解为是其他可接受的示例。所有这些修改和变型旨在被包括在本公开的范围内。此外,本文描述的任何步骤可以同时执行或以与本文所排列的步骤不同的顺序执行。而且,显而易见的是,本文公开的特定实施例的特征和属性可以以不同的方式组合以形成另外的实施例,所有这些都落入本公开的范围内。
除非另有特别说明或在所采用的上下文中另有其他理解,否则本文使用的条件性语言,例如“能”,“可以”,“可能”,“会”,“例如”等通常旨在传达某些实施例包括,而其他实施例不包括,某些特征、要素和/或状态。因此,这种条件性语言通常不旨在暗示特征、要素和/或状态以对于一个或多个实施例是必需的任何方式,或者一个或多个实施例必须包括,在有或没有作者输入或提示的情况下,用于确定是否这些特征、要素和/或状态是否被包括在内或者是否要以任何特定的实施例执行的逻辑。
此外,本文可能使用了以下术语。除非上下文另外明确指出,否则单数形式“一(a)”,“一种(an)”和“该(the)”包括复数指示物。因此,例如,对项目的引用包括对一个或多个项目的引用。术语“一个(one)”是指一个、两个或更多个,并且通常适用于部分或全部数量的选择。术语“多个”是指两个或更多个项目。术语“大约”或“近似”是指数量、尺寸、大小、配方、参数,形状和其他特征不需要精确,但可以根据需要近似和/或更大或更小,反映出可接受的公差、转换系数、舍入、测量误差等以及本领域技术人员已知的其他因素。术语“基本上”是指不需要精确地实现所列举的特性、参数或值,而是偏差或变化,包括例如公差、测量误差、测量精度限制和本领域技术人员已知的其他因素,可能会以不排除该特性旨在提供的效果的量出现。
数值数据可以在本文中以范围格式表示或呈现。应当理解,这样的范围格式仅是为了方便和简洁而使用,因此应该灵活地解释为不仅包括明确列举为范围限制的数值,而且还应解释为包括所有单独的数值或包括在该范围内的子范围,就好像明确叙述了每个数值和子范围被明确地叙述。作为说明,数值范围“约1至5”应解释为不仅包括约1至约5的明确列举的值,而且还应解释为还包括指示范围内的各个值和子范围。因此,包括在该数值范围内的是诸如2、3和4之类的各个值以及诸如“约1至约3”、“约2至约4”和“约3至约5”、“1至3”、“2至4”、“3至5”等之类的子范围。此相同原理适用于仅列举一个数值的范围(例如,“大于约1”),并且无论范围的广度或描述的特征均应适用。为了方便,可以在公共列表中呈现多个项目。但是,这些列表应被解释为虽然列表中的每个构件都被单独标识为单独且唯一的构件。因此,仅基于它们在共同组中的呈现而没有相反指示,该列表的任何单个构件都不应被解释为等同于同一列表的任何其他构件的事实上的等同物。此外,在术语“和”和“或”与项目列表结合使用的情况下,应广义地解释它们,因为任何一个或多个所列项目可以单独使用或与其他所列项目结合使用。术语“替代地”是指选择两个或更多个替代中的一个,并且并非旨在一次将选择限制为仅列出的那些替代选择或仅列出的替代选择之一,除非上下文另外明确指出。
本文公开的过程、方法或算法可以传递给处理设备、控制器或计算机(其包括任何现有的可编程电子控制单元或专用电子控制单元)或者可以由实施。类似地,过程、方法或算法可以以多种形式存储为可由控制器或计算机执行的数据和指令,包括但不限于永久存储在诸如ROM设备之类的不可写存储介质上的信息以及可替换地存储在可写存储介质(例如软盘、磁带、CD、RAM设备以及其他磁性和光学介质)上的信息。所述过程、方法或算法也可以在软件可执行对象中实施。可替代地,过程、方法或算法可以使用合适的硬件组件(诸如专用集成电路(ASIC)、现场可编程门阵列(FPGA)、状态机、控制器或其他硬件组件或设备)或硬件、软件和固件组件的组合来整个或部分地实施。这样的示例设备可以作为车辆计算系统的一部分是车载的,或者位于车外,并与一个或多个车辆上的设备进行远程通信。
尽管上面描述了示例性的实施例,但并不旨在这些实施例描述了本申请所涵盖的所有可能的形式。说明书中使用的词语是描述性的词语而不是限制性的词语,并且应当理解,在不脱离本公开的精神和范围的情况下可以进行各种改变。如前所述,各个实施例的特征可以组合以形成本公开的其他示例性方面,这些示例性方面可能没有明确地描述或示出。尽管就一种或多种期望的特性而言,各个实施例可以被描述为相对于其他实施例或现有技术实施方式具有优势或是优选的,但是本领域普通技术人员认识到可以折中一种或多种特征或特性以实现所需的总体系统属性,其具体取决于特定的应用程序和实施方式。这些属性可以包括但不限于成本、强度、耐用性、生命周期成本、可销售性、外观、包装、尺寸、可使用性、重量、可制造性、易于组装等。关于一个或多个特征的其他实施例或现有技术实施方式不在本公开的范围之内,并且对于特定应用而言可能是期望的。
Claims (10)
1.一种装置,包括:
-摄像机,可操作以捕捉视场的二维图像;
-激光雷达,可操作以生成视场的点云;
-处理器,可操作以响应于点云生成视场的三维表示,以检测三维表示内的对象,以响应于该对象生成三维边界框,以将三维将边界框投影到二维图像上以生成标记的二维图像;和
-车辆控制器,可操作以响应于标记的二维图像来控制车辆。
2.根据权利要求1所述的装置,其中,所述视场的三维表示是三维体积的体素化表示。
3.根据权利要求1所述的装置,其中三维边界框表示对象的质心、长度、宽度和高度。
4.根据权利要求1所述的装置,其中,所述处理器还可操作以响应于边缘检测而将所述图像对准所述点云。
5.根据权利要求1所述的装置,其中,所述处理器还可操作以校准并共同配准所述点云中的点和所述图像中的像素。
6.根据权利要求1所述的装置,其中,所述车辆控制器可操作以执行自适应巡航控制算法。
7.根据权利要求1所述的装置,其中,所标记的二维图像用于确认基于图像的对象检测方法。
8.根据权利要求1所述的装置,还包括用户输入,用于接收对三维边界框在视场内的位置的用户校正。
9.一种方法,包括:
-经由摄像机接收二维图像;
-经由激光雷达接收点云;
-响应于点云用处理器生成三维空间;
-用处理器检测该三维空间内的对象;
-响应于该对象用处理器生成边界框;
-用处理器将边界框投影到二维图像中以生成标记的二维图像;和
-经由车辆控制器,响应于标记的二维图像,控制车辆。
10.根据权利要求9所述的方法,其中,用所述边界框的至少一个投影来标记所标记的二维图像,并且其中,所述边界框指示所检测到的对象。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/460,015 US20210004566A1 (en) | 2019-07-02 | 2019-07-02 | Method and apparatus for 3d object bounding for 2d image data |
US16/460,015 | 2019-07-02 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112183180A true CN112183180A (zh) | 2021-01-05 |
Family
ID=73918830
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010624611.9A Pending CN112183180A (zh) | 2019-07-02 | 2020-07-01 | 用于二维图像数据的三维对象定边界的方法和装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20210004566A1 (zh) |
CN (1) | CN112183180A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113808186A (zh) * | 2021-03-04 | 2021-12-17 | 京东鲲鹏(江苏)科技有限公司 | 训练数据生成方法、装置与电子设备 |
TWI786765B (zh) * | 2021-08-11 | 2022-12-11 | 中華電信股份有限公司 | 自適應配置雷達參數的雷達和方法 |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021226876A1 (zh) * | 2020-05-13 | 2021-11-18 | 华为技术有限公司 | 一种目标检测方法及装置 |
US11593996B2 (en) | 2021-02-09 | 2023-02-28 | Waymo Llc | Synthesizing three-dimensional visualizations from perspectives of onboard sensors of autonomous vehicles |
US20220366642A1 (en) * | 2021-05-11 | 2022-11-17 | Baker Hughes Holdings Llc | Generation of object annotations on 2d images |
KR102343051B1 (ko) * | 2021-06-17 | 2021-12-24 | 주식회사 인피닉 | 라이다 점군으로부터 카메라 이미지의 바운딩 박스를 조정하는 방법 및 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램 |
WO2022263004A1 (en) * | 2021-06-18 | 2022-12-22 | Cariad Se | Method for annotating objects in an image and driver assistant system for performing the method |
GB2609620A (en) * | 2021-08-05 | 2023-02-15 | Continental Automotive Gmbh | System and computer-implemented method for performing object detection for objects present in 3D environment |
CN113640826B (zh) * | 2021-08-11 | 2023-10-20 | 山东大学 | 一种基于3d激光点云的障碍物识别方法及系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180136332A1 (en) * | 2016-11-15 | 2018-05-17 | Wheego Electric Cars, Inc. | Method and system to annotate objects and determine distances to objects in an image |
CN108709513A (zh) * | 2018-04-10 | 2018-10-26 | 深圳市唯特视科技有限公司 | 一种基于模型拟合算法的车辆三维检测方法 |
CN109283924A (zh) * | 2017-07-19 | 2019-01-29 | 通用汽车环球科技运作有限责任公司 | 分类方法及系统 |
US20190096086A1 (en) * | 2017-09-22 | 2019-03-28 | Zoox, Inc. | Three-Dimensional Bounding Box From Two-Dimensional Image and Point Cloud Data |
US20190120947A1 (en) * | 2017-10-19 | 2019-04-25 | DeepMap Inc. | Lidar to camera calibration based on edge detection |
US20190147245A1 (en) * | 2017-11-14 | 2019-05-16 | Nuro, Inc. | Three-dimensional object detection for autonomous robotic systems using image proposals |
US20190164018A1 (en) * | 2017-11-27 | 2019-05-30 | TuSimple | System and method for drivable road surface representation generation using multimodal sensor data |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11500099B2 (en) * | 2018-03-14 | 2022-11-15 | Uatc, Llc | Three-dimensional object detection |
US10872269B2 (en) * | 2018-10-26 | 2020-12-22 | Volvo Car Corporation | Methods and systems for the fast estimation of three-dimensional bounding boxes and drivable surfaces using LIDAR point clouds |
US10846817B2 (en) * | 2018-11-15 | 2020-11-24 | Toyota Research Institute, Inc. | Systems and methods for registering 3D data with 2D image data |
US11393097B2 (en) * | 2019-01-08 | 2022-07-19 | Qualcomm Incorporated | Using light detection and ranging (LIDAR) to train camera and imaging radar deep learning networks |
-
2019
- 2019-07-02 US US16/460,015 patent/US20210004566A1/en not_active Abandoned
-
2020
- 2020-07-01 CN CN202010624611.9A patent/CN112183180A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180136332A1 (en) * | 2016-11-15 | 2018-05-17 | Wheego Electric Cars, Inc. | Method and system to annotate objects and determine distances to objects in an image |
CN109283924A (zh) * | 2017-07-19 | 2019-01-29 | 通用汽车环球科技运作有限责任公司 | 分类方法及系统 |
US20190096086A1 (en) * | 2017-09-22 | 2019-03-28 | Zoox, Inc. | Three-Dimensional Bounding Box From Two-Dimensional Image and Point Cloud Data |
US20190120947A1 (en) * | 2017-10-19 | 2019-04-25 | DeepMap Inc. | Lidar to camera calibration based on edge detection |
US20190147245A1 (en) * | 2017-11-14 | 2019-05-16 | Nuro, Inc. | Three-dimensional object detection for autonomous robotic systems using image proposals |
US20190164018A1 (en) * | 2017-11-27 | 2019-05-30 | TuSimple | System and method for drivable road surface representation generation using multimodal sensor data |
CN108709513A (zh) * | 2018-04-10 | 2018-10-26 | 深圳市唯特视科技有限公司 | 一种基于模型拟合算法的车辆三维检测方法 |
Non-Patent Citations (2)
Title |
---|
JIEJUN XU等: "2D/3D Sensor Exploitation and Fusion for Enhanced Object Detection", 2014 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION WORKSHOPS * |
RAFAEL BAREA等: "Vehicle Detection and Localization using 3D LIDAR Point Cloud and Image Semantic Segmentation", 2018 21ST INTERNATIONAL CONFERENCE ON INTELLIGENT TRANSPORTATION SYSTEMS (ITSC) * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113808186A (zh) * | 2021-03-04 | 2021-12-17 | 京东鲲鹏(江苏)科技有限公司 | 训练数据生成方法、装置与电子设备 |
CN113808186B (zh) * | 2021-03-04 | 2024-01-16 | 京东鲲鹏(江苏)科技有限公司 | 训练数据生成方法、装置与电子设备 |
TWI786765B (zh) * | 2021-08-11 | 2022-12-11 | 中華電信股份有限公司 | 自適應配置雷達參數的雷達和方法 |
Also Published As
Publication number | Publication date |
---|---|
US20210004566A1 (en) | 2021-01-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112183180A (zh) | 用于二维图像数据的三维对象定边界的方法和装置 | |
US11393097B2 (en) | Using light detection and ranging (LIDAR) to train camera and imaging radar deep learning networks | |
JP7297017B2 (ja) | オンボードセンサの外部パラメータを較正する方法及び装置、並びに関連する車両 | |
US11630197B2 (en) | Determining a motion state of a target object | |
US11948249B2 (en) | Bounding box estimation and lane vehicle association | |
EP3252657B1 (en) | Information processing device and information processing method | |
EP3723001A1 (en) | Transferring synthetic lidar system data to real world domain for autonomous vehicle training applications | |
CN110988912A (zh) | 自动驾驶车辆的道路目标与距离检测方法、系统、装置 | |
US11475678B2 (en) | Lane marker detection and lane instance recognition | |
WO2020185489A1 (en) | Sensor validation using semantic segmentation information | |
US11280630B2 (en) | Updating map data | |
JP2015006874A (ja) | 3次元証拠グリッドを使用する自律着陸のためのシステムおよび方法 | |
WO2019061311A1 (zh) | 自动驾驶车辆的控制方法、控制终端及机器可读存储介质 | |
US11255975B2 (en) | Systems and methods for implementing a tracking camera system onboard an autonomous vehicle | |
US11941888B2 (en) | Method and device for generating training data for a recognition model for recognizing objects in sensor data of a sensor, in particular, of a vehicle, method for training and method for activating | |
EP3769120A1 (en) | Object detection system and method | |
US20220119007A1 (en) | Method and Device for Operating a Robot with Improved Object Detection | |
Gazis et al. | Examining the sensors that enable self-driving vehicles | |
CN110893845A (zh) | 用于对角车道检测的方法与装置 | |
CN111781606A (zh) | 一种新型激光雷达和超声波雷达融合的小型化实现方法 | |
US10643348B2 (en) | Information processing apparatus, moving object, information processing method, and computer program product | |
CN115718304A (zh) | 目标对象检测方法、装置、车辆及存储介质 | |
US20230184950A1 (en) | Non-Contiguous 3D LIDAR Imaging Of Targets With Complex Motion | |
US20240069207A1 (en) | Systems and methods for spatial processing of lidar data | |
RU2775817C2 (ru) | Способ и система для обучения алгоритма машинного обучения с целью обнаружения объектов на расстоянии |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20210105 |
|
WD01 | Invention patent application deemed withdrawn after publication |