KR20210090384A - Method and Apparatus for Detecting 3D Object Using Camera and Lidar Sensor - Google Patents

Method and Apparatus for Detecting 3D Object Using Camera and Lidar Sensor Download PDF

Info

Publication number
KR20210090384A
KR20210090384A KR1020200003551A KR20200003551A KR20210090384A KR 20210090384 A KR20210090384 A KR 20210090384A KR 1020200003551 A KR1020200003551 A KR 1020200003551A KR 20200003551 A KR20200003551 A KR 20200003551A KR 20210090384 A KR20210090384 A KR 20210090384A
Authority
KR
South Korea
Prior art keywords
data
information
image
matching
object region
Prior art date
Application number
KR1020200003551A
Other languages
Korean (ko)
Inventor
소아람
Original Assignee
현대모비스 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 현대모비스 주식회사 filed Critical 현대모비스 주식회사
Priority to KR1020200003551A priority Critical patent/KR20210090384A/en
Publication of KR20210090384A publication Critical patent/KR20210090384A/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0454
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/30Determination of transform parameters for the alignment of images, i.e. image registration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/90Determination of colour characteristics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2210/00Indexing scheme for image generation or computer graphics
    • G06T2210/12Bounding box

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

The present embodiment relates to a method and device for detecting a 3D object using a camera and a lidar sensor. The method generates matching data by matching an image collected using a camera and point cloud information collected using the lidar sensor, and detects a three-dimensional object region by using the generated matching data as an input of a learning model, so as to provide more accurate and improved object recognition results compared to the prior art in relation to the lidar sensor.

Description

카메라 및 라이다 센서를 이용한 3D 객체 검출방법 및 장치{Method and Apparatus for Detecting 3D Object Using Camera and Lidar Sensor}Method and Apparatus for Detecting 3D Object Using Camera and Lidar Sensor

본 실시예는 카메라 및 라이다 센서를 이용한 3D 객체 검출방법 및 장치에 관한 것이다. 더욱 상세하게는, 자율주행 차량에서 카메라의 영상정보를 활용하여 라이다 센서의 인식률을 향상시킨 카메라 및 라이다 센서를 이용한 3D 객체 검출방법 및 장치에 관한 것이다.This embodiment relates to a method and apparatus for detecting a 3D object using a camera and a lidar sensor. More particularly, it relates to a camera and a 3D object detection method and apparatus using a lidar sensor that improve the recognition rate of a lidar sensor by using image information of a camera in an autonomous vehicle.

이 부분에 기술된 내용은 단순히 본 실시예에 대한 배경 정보를 제공할 뿐 종래기술을 구성하는 것은 아니다.The content described in this section merely provides background information for the present embodiment and does not constitute the prior art.

차량의 지능화가 진전됨에 따라 운전자 보조 시스템(ADAS: Advanced Driver Assistance System)과 자율 주행 차량(Autonomous Vehicle)에 대한 연구가 활발하게 이루어지고 있다.As vehicle intelligence progresses, studies on advanced driver assistance systems (ADAS) and autonomous vehicles are being actively conducted.

그 중에서 2차원 이미지에 대한 인식과 분류에 관한 문제는 이미 많은 연구 성과가 이루어진 바가 있다. 하지만 최근 개발되고 있는 많은 자율주행 제어기의 경우 오브젝트에 대한 3차원 인식을 필수로 필요로 한다. 이는, 앞서가는 자동차의 이미지 인식만으로는 주행을 제어하기 어렵다는 한계가 존재하며, 특히 보행자의 위치를 정확하게 추정하지 않을 경우 사고의 위험이 크게 증가하는 등의 이유 때문이다.Among them, many research achievements have already been made on the problem of recognition and classification of 2D images. However, in the case of many autonomous driving controllers being developed recently, 3D recognition of objects is essential. This is because there is a limitation in that it is difficult to control driving only by image recognition of a vehicle ahead, and in particular, if the location of a pedestrian is not accurately estimated, the risk of an accident greatly increases.

종래의 경우 오브젝트의 3차원 인식을 위해서 다양한 센서가 활용되었다. 특히, 라이다(ridar)의 경우, 다른 센서들 대비 정확한 거리 정보를 얻을 수 있는 장점이 있어서, 대부분의 자율 주행 또는 반자율 주행 차량에는 라이다 장치를 차량에 장착하여 사용하고 있다.In the conventional case, various sensors have been used for three-dimensional recognition of an object. In particular, in the case of lidar, since it has the advantage of obtaining accurate distance information compared to other sensors, most autonomous or semi-autonomous driving vehicles have a lidar device mounted on the vehicle and used.

하지만, 이러한 라이다 센서를 이용한 3D 객체 인식 알고리즘의 경우, 이미지를 이용한 2D 객체 인식 알고리즘 대비 다소 인식 성능이 떨어진다는 문제점이 존재한다.However, in the case of a 3D object recognition algorithm using such a lidar sensor, there is a problem that recognition performance is somewhat inferior compared to a 2D object recognition algorithm using an image.

이를 해결하기 위해, 딥러닝(deep learning)을 활용하여 3D 객체 인식 알고리즘의 성능을 향상시키는 방법이 제안되었으나, 이 또한, 학습 데이터로서 활용되는 3D 라벨링 데이터가 매우 제한적이라는 점에서 여전히 만족스러운 인식 결과를 얻을 수 없다는 한계가 존재한다.In order to solve this problem, a method of improving the performance of a 3D object recognition algorithm using deep learning has been proposed, but the recognition result is still satisfactory in that 3D labeling data used as learning data is very limited. There is a limit that cannot be obtained.

본 실시예는, 카메라를 이용하여 수집된 이미지와 라이다 센서를 이용하여 수집된 포인트 클라우드 정보를 정합하여 정합 데이터를 생성하고, 생성된 정합 데이터를 학습 모델의 입력으로 하여 3차원의 객체 영역을 검출함으로써 라이다 센서와 관련하여 종래 대비 보다 정확하고 향상된 객체 인식 결과를 제공 가능토록 하는 데 주된 목적이 있다.In this embodiment, matching data is generated by matching an image collected using a camera and point cloud information collected using a lidar sensor, and a three-dimensional object region is generated by using the generated matching data as an input of a learning model. The main purpose is to provide an object recognition result that is more accurate and improved than the prior art in relation to the lidar sensor by detecting it.

본 실시예는, 카메라 및 라이다 센서로부터 차량의 주변 영역에 대하여 수집된 이미지 및 라이다 데이터를 획득하는 데이터 획득부; 상기 이미지를 제1 학습모델에 적용하여 상기 이미지 내 객체가 존재하는 객체 영역을 검출하고, 상기 객체 영역에 대한 RGB 색상정보를 산출하는 색상정보 산출부; 상기 라이다 데이터 중 상기 객체 영역에 대응하는 포인트 클라우드 정보를 산출하고, 상기 포인트 클라우드 정보 및 상기 RGB 색상정보를 정합하여 정합 데이터를 생성하는 데이터 정합부; 및 상기 정합 데이터를 제2 학습모델에 적용하여 상기 객체 영역에 상응하는 3차원 객체 영역을 검출하는 검출부를 포함하는 것을 특징으로 하는 3D 객체 검출장치를 제공한다.The present embodiment includes: a data acquisition unit for acquiring images and lidar data collected from a camera and a lidar sensor for an area around the vehicle; a color information calculating unit for detecting an object region in which an object in the image exists by applying the image to a first learning model, and calculating RGB color information for the object region; a data matching unit that calculates point cloud information corresponding to the object region among the lidar data, and generates matching data by matching the point cloud information and the RGB color information; and a detector configured to detect a three-dimensional object region corresponding to the object region by applying the matching data to a second learning model.

또한, 본 실시예의 다른 측면에 의하면, 카메라 및 라이다 센서로부터 차량의 주변 영역에 대하여 수집된 이미지 및 라이다 데이터를 획득하는 과정; 상기 이미지를 제1 학습모델에 적용하여 상기 이미지 내 객체가 존재하는 객체 영역을 검출하고, 상기 객체 영역에 대한 RGB 색상정보를 산출하는 과정; 상기 라이다 데이터 중 상기 객체 영역에 대응하는 포인트 클라우드 정보를 산출하고, 상기 포인트 클라우드 정보 및 상기 RGB 색상정보를 정합하여 정합 데이터를 생성하는 과정; 및 상기 정합 데이터를 제2 학습모델에 적용하여 상기 객체 영역에 상응하는 3차원 객체 영역을 검출하는 과정을 포함하는 것을 특징으로 하는 3D 객체 검출방법을 제공한다.In addition, according to another aspect of the present embodiment, the process of acquiring images and lidar data collected for the surrounding area of the vehicle from the camera and lidar sensor; detecting an object region in which an object in the image exists by applying the image to a first learning model, and calculating RGB color information for the object region; calculating point cloud information corresponding to the object region among the lidar data, and generating matching data by matching the point cloud information and the RGB color information; and detecting a 3D object area corresponding to the object area by applying the matching data to a second learning model.

이상에서 설명한 바와 같이 본 실시예에 의하면, 카메라를 이용하여 수집된 이미지와 라이다 센서를 이용하여 수집된 포인트 클라우드 정보를 정합하여 정합 데이터를 생성하고, 생성된 정합 데이터를 학습 모델의 입력으로 하여 3차원의 객체 영역을 검출함으로써 라이다 센서와 관련하여 종래 대비 보다 정확하고 향상된 객체 인식 결과를 제공 가능토록 하는 효과가 있다.As described above, according to this embodiment, the matching data is generated by matching the image collected using the camera and the point cloud information collected using the lidar sensor, and the generated matching data is used as an input of the learning model. By detecting a three-dimensional object region, there is an effect of providing more accurate and improved object recognition results compared to the prior art in relation to the lidar sensor.

또한, 검출된 3차원 객체 영역을 기반으로 3D 라벨링 데이터를 생성하고, 생성한 3D 라벨링 데이터를 3D 객체 검출을 위한 학습 데이터로서 제공함으로써 딥러닝에 기반하는 3D 객체 인식 알고리즘의 성능을 향상시킬 수 있는 효과가 있다.In addition, the performance of a 3D object recognition algorithm based on deep learning can be improved by generating 3D labeling data based on the detected 3D object area and providing the generated 3D labeling data as learning data for 3D object detection. It works.

도 1은 본 실시예에 따른 3D 객체 검출방법을 위한 관련 구성을 설명하기 위한 예시도이다.
도 2는 본 실시예에 따른 3D 객체 검출방법을 위한 딥러닝 네트워크의 구조를 예시한 예시도이다.
도 3은 본 실시예에 따른 3D 객체 검출장치를 개략적으로 나타낸 블록 구성도이다.
도 4는 본 실시예에 따른 3D 객체 검출방법을 설명하기 위한 순서도이다.
도 5는 본 실시예에 따른 정합 데이터를 설명하기 위한 예시도이다.
도 6은 본 실시예에 따른 3차원 객체 영역의 재평가를 위한 손실 정보의 산출방법을 설명하기 위한 예시도이다.
1 is an exemplary diagram for explaining a related configuration for a 3D object detection method according to the present embodiment.
2 is an exemplary diagram illustrating the structure of a deep learning network for a 3D object detection method according to the present embodiment.
3 is a block diagram schematically illustrating a 3D object detecting apparatus according to the present embodiment.
4 is a flowchart illustrating a 3D object detection method according to the present embodiment.
5 is an exemplary diagram for explaining matching data according to the present embodiment.
6 is an exemplary view for explaining a method of calculating loss information for re-evaluation of a 3D object region according to the present embodiment.

이하, 본 발명의 일부 실시예들을 예시적인 도면을 통해 상세하게 설명한다. 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의하여야 한다. 또한, 본 발명의 실시예를 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.Hereinafter, some embodiments of the present invention will be described in detail with reference to exemplary drawings. In adding reference numerals to the components of each drawing, it should be noted that the same components are given the same reference numerals as much as possible even though they are indicated in different drawings. In addition, in describing the embodiment of the present invention, if it is determined that a detailed description of a related well-known configuration or function may obscure the gist of the present invention, the detailed description thereof will be omitted.

또한, 본 발명의 구성 요소를 설명하는 데 있어서, 제 1, 제 2, A, B, (a), (b) 등의 용어를 사용할 수 있다. 이러한 용어는 그 구성 요소를 다른 구성 요소와 구별하기 위한 것일 뿐, 그 용어에 의해 해당 구성 요소의 본질이나 차례 또는 순서 등이 한정되지 않는다. 명세서 전체에서, 어떤 부분이 어떤 구성요소를 '포함', '구비'한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에 기재된 '…부,' '모듈' 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.In addition, in describing the components of the present invention, terms such as first, second, A, B, (a), (b), etc. may be used. These terms are only for distinguishing the components from other components, and the essence, order, or order of the components are not limited by the terms. Throughout the specification, when a part 'includes' or 'includes' a certain component, it means that other components may be further included, rather than excluding other components, unless otherwise stated. . In addition, the '... Terms such as 'unit' and 'module' mean a unit that processes at least one function or operation, which may be implemented as hardware or software or a combination of hardware and software.

최근 많은 3D 객체 검출 알고리즘에 딥러닝 기법이 적용되어, 객체 검출에 향상된 성능을 보이고 있다. 그러나 2D 이미지 데이터셋(dataset)에 비하면 3D 라벨링 데이터는 매우 제한적이라는 한계가 존재한다. 일부 제한된 3D 라벨링(labeling) 데이터를 이용하여 네트워크의 성능을 평가하고 있지만, 이는 특정 장면(scene)에서만 동작하거나 특정 데이터셋에서만 동작하는 문제가 있다.Recently, deep learning techniques have been applied to many 3D object detection algorithms, showing improved performance in object detection. However, there is a limit that 3D labeling data is very limited compared to 2D image dataset. Although the performance of the network is evaluated using some limited 3D labeling data, there is a problem in that it operates only in a specific scene or only in a specific dataset.

이를 해결하기 위해, 본 실시예의 경우, 딥러닝을 기반으로 하여 기존 인식 알고리즘에 비하여 훨씬 강력한 3D 객체 검출 네트워크를 제안한다. 보다 자세하게는, 카메라를 이용하여 수집된 이미지와 라이다 센서를 이용하여 수집된 포인트 클라우드 정보를 정합하여 정합 데이터를 생성하고, 생성된 정합 데이터를 학습 모델의 입력으로 하여 3차원의 객체 영역을 검출함으로써 라이다 센서와 관련하여 종래 대비 보다 정확하고 향상된 객체 인식 결과를 제공 가능토록 하는 새로운 네트워크 모델을 제안한다. 또한, 취득된 데이터를 활용하여 3D 라벨링 데이터를 생성하는 방법 및 이의 활용방법을 제안한다.To solve this problem, in the case of this embodiment, a 3D object detection network that is much more powerful than the existing recognition algorithm based on deep learning is proposed. In more detail, matching data is generated by matching an image collected using a camera and point cloud information collected using a lidar sensor, and a three-dimensional object area is detected by using the generated matching data as an input of a learning model. By doing so, we propose a new network model that can provide more accurate and improved object recognition results compared to the prior art in relation to the lidar sensor. In addition, a method for generating 3D labeling data using the acquired data and a method for using the same are proposed.

한편, 본 실시예는 객체 검출은 위한 센서로서 카메라 및 라이다 센서를 장착한 자율주행 또는 반자율주행 차량에서의 3D 객체 검출방법에 대해 기재하고 있으나, 이는 설명의 편의를 위한 것으로서, 카메라 및 라이다 센서를 장착한 다양한 이동수단에 적용될 수 있다.On the other hand, this embodiment describes a 3D object detection method in an autonomous or semi-autonomous vehicle equipped with a camera and a lidar sensor as a sensor for object detection, but this is for convenience of description, and the camera and It can be applied to various transportation means equipped with Ida sensor.

도 1은 본 실시예에 따른 3D 객체 검출방법을 위한 관련 구성을 설명하기 위한 예시도이며, 도 2는 본 실시예에 따른 3D 객체 검출방법을 위한 딥러닝 네트워크의 구조를 예시한 예시도이다.1 is an exemplary diagram for explaining a related configuration for a 3D object detection method according to this embodiment, and FIG. 2 is an exemplary diagram illustrating a structure of a deep learning network for a 3D object detection method according to the present embodiment.

이하에서는 도 1 및 도 2를 함께 참조하여, 본 실시예에 따른 3D 객체 검출장치(130) 및 관련 구성에 대하여 설명하도록 한다.Hereinafter, the 3D object detecting apparatus 130 and related configurations according to the present embodiment will be described with reference to FIGS. 1 and 2 together.

3D 객체 검출장치(110)는 도 1에 도시된 바와 같이 차량(100) 상에 직접 설치되는 형태로 구현될 수 있다. The 3D object detection apparatus 110 may be implemented in a form directly installed on the vehicle 100 as shown in FIG. 1 .

3D 객체 검출장치(110)는 라이다 센서(120)를 이용하여 수집된 라이다 데이터 및 카메라(130)를 이용하여 수집된 이미지를 제공받고, 이를 기반으로 하여 3D 객체 검출을 수행한다.The 3D object detection apparatus 110 receives the lidar data collected by using the lidar sensor 120 and the image collected by using the camera 130 , and performs 3D object detection based thereon.

3D 객체 검출장치(130)는 검출된 데이터를 토대로 3D 라벨링 데이터를 생성하며, 생성한 3D 라벨링 데이터를 3D 객체 검출을 위한 학습 데이터로서 제공한다.The 3D object detection apparatus 130 generates 3D labeling data based on the detected data, and provides the generated 3D labeling data as learning data for 3D object detection.

본 실시예에 있어서, 3D 객체 검출장치(130)는 카메라(130)를 이용하여 수집된 이미지와 라이다 센서(120)를 이용하여 수집된 포인트 클라우드 정보를 정합하여 정합 데이터를 생성하고, 생성된 정합 데이터를 학습 모델의 입력으로 하여 3차원의 객체 영역을 검출하도록 구현된다.In this embodiment, the 3D object detection device 130 generates matching data by matching the image collected using the camera 130 and the point cloud information collected using the lidar sensor 120 , and the generated It is implemented to detect a three-dimensional object region by using the matching data as an input of the learning model.

이를 위해, 3D 객체 검출장치(130)는 먼저, 카메라(130)를 이용하여 수집한 이미지를 기반으로 딥러닝 기법을 적용하여 2D 객체 검출을 수행한다.To this end, the 3D object detection apparatus 130 first performs 2D object detection by applying a deep learning technique based on an image collected using the camera 130 .

2D 객체 검출 결과를 토대로, 3D 객체 검출장치(130)는 객체 영역에 대응하는 포인트 클라우드 정보를 산출하고, 이를 기반으로 3D 객체 검출을 수행한다. 여기서, 3D 객체 검출장치(130)는 앞선 2D 객체 검출 결과를 이용하여 이미 객체가 어떤 물체인지에 대한 힌트를 가지고 있기 때문에 그 정보를 이용하여 더욱 세분화된 세그맨테이션(segmentation)을 수행할 수 있다.Based on the 2D object detection result, the 3D object detection apparatus 130 calculates point cloud information corresponding to the object area, and performs 3D object detection based thereon. Here, since the 3D object detection apparatus 130 already has a hint about what kind of object the object is by using the previous 2D object detection result, it can perform more detailed segmentation using the information. .

본 실시예에 있어서, 3D 객체 검출장치(130)는 단순히 포인트 클라우드 정보를 사용하는 데 그치지 않고, 이미지와 포인트 클라우드 정보의 관계를 이용하여 기존 인식 알고리즘에 비하여 훨씬 강력한 3D 객체 검출 알고리즘을 제공한다. 즉, 3D 객체 검출장치(130)는 포인트 클라우드와 이미지의 RGB 색상정보를 정합하여 정합 데이터를 생성하고, 이를 학습 모델의 입력으로 하여 3차원의 객체 영역을 검출함으로써 기존 알고리즘에 문제가 있었던 오검출 확률이 감소될 수 있도록 하며, 이를 통해 최적의 성능을 이끌어낸다.In this embodiment, the 3D object detection apparatus 130 does not simply use the point cloud information, but provides a 3D object detection algorithm that is much more powerful than the existing recognition algorithm by using the relationship between the image and the point cloud information. That is, the 3D object detection device 130 generates matching data by matching the RGB color information of the point cloud and the image, and detects the three-dimensional object region by using this as an input of the learning model to detect a problem in the existing algorithm. It allows the probability to be reduced, which leads to optimal performance.

예컨대, 도 2를 참조하면, 본 실시예에 따른 3D 객체 검출방법을 위한 딥러닝 네트워크의 구조는 크게 두 스테이지로 나눠질 수 있다.For example, referring to FIG. 2 , the structure of the deep learning network for the 3D object detection method according to the present embodiment may be largely divided into two stages.

먼저, proposal ensemble network는 카메라(130)를 이용하여 수집된 이미지와 라이다 센서(120)를 이용하여 수집된 포인트 클라우드 정보를 정합하여 정합 데이터를 생성하는 제1 스테이지에 해당한다.First, the proposal ensemble network corresponds to the first stage of generating matching data by matching the image collected using the camera 130 and the point cloud information collected using the lidar sensor 120 .

제1 스테이지에서는 사전 학습된 여러가지 네트워크들을 이용하여 이미지에 대한 2D 객체 검출을 수행하고, 이를 기반으로 하여 검출된 객체 영역에 대응하는 RGB 색상정보를 산출한다. In the first stage, 2D object detection is performed on an image using various pre-trained networks, and RGB color information corresponding to the detected object region is calculated based on this.

제1 스테이지에서는 라이다 데이터 중 앞서 검출된 객체 영역에 대응하는 포인트 클라우드 정보를 산출하고, 산출한 포인트 클라우드 정보 및 RGB 색상정보를 정합하여 정합 데이터를 생성한다.In the first stage, point cloud information corresponding to the previously detected object area among the lidar data is calculated, and matched data is generated by matching the calculated point cloud information and RGB color information.

Segmentation 구간은 앞서 제1 스테이지에서 생성된 정합 데이터를 입력으로 하여 3D 객체 검출을 수행하는 제2 스테이지에 해당한다.The segmentation section corresponds to the second stage in which 3D object detection is performed by inputting the matching data generated in the first stage as an input.

제2 스테이지에서는 이미지에서 얻은 수 있는 RGB 색상정보를 추가로 사용하여 포인트 클라우드 정보에 대해 다시 세그맨테이션을 수행하고, 이를 기반으로 앞서 제1 스테이지에서 검출된 객체 영역에 상응하는 3차원 객체 영역을 검출한다.In the second stage, segmentation is performed again on the point cloud information by additionally using the RGB color information obtained from the image, and based on this, a three-dimensional object region corresponding to the object region detected in the first stage is generated. detect

제2 스테이지에서는 2차원 객체 영역과의 관계를 고려하여 검출된 3차원 객체 영역에 대하여 재평가를 수행하며, 이를 통해 산출되는 손실 정보를 기반으로 하여 오차 범위가 최소화될 수 있도록 동작한다.In the second stage, re-evaluation is performed on the detected 3D object area in consideration of the relationship with the 2D object area, and an error range is minimized based on the calculated loss information.

제2 스테이지에서는 검출된 3차원 객체 영역을 토대로 3차원 라벨링 데이터를 생성하고, 이를 3D 객체 검출을 위한 학습 데이터로서 제공한다.In the second stage, 3D labeling data is generated based on the detected 3D object area and provided as learning data for 3D object detection.

라이다 센서(120)는 차량의 일측에 장착되며, 차량의 주변, 예컨대 전방을 향하여 레이저를 발사한다.The lidar sensor 120 is mounted on one side of the vehicle, and emits a laser toward the periphery of the vehicle, for example, the front.

라이다 센서(120)는 레이저 파장의 빛을 외부로 방출하고, 이 방출된 빛이 외부 객체에 반사되어 되돌아오는 데 소요되는 시간을 측정하여 외부 객체의 위치에 대한 정보(라이다 데이터)를 생성한다.The lidar sensor 120 emits light of a laser wavelength to the outside, measures the time it takes for the emitted light to be reflected by an external object and returns to generate information (LIDAR data) on the position of the external object. do.

라이다 센서(120)는 레이저를 이용하여 측정한 거리정보(distance information)를 3D 공간에서 점들의 집합(point cloud) 형태로 나타내어 제공한다. 예컨대, 포인트 클라우드 내 각 포인트들은 센서의 위치로부터 목표물과 로봇좌표계 기준 X 방향, Y 방향, Z 방향으로 각 몇 m 떨어져 있는지의 거리정보와 목표물의 반사계수값이 포함될 수 있다.The lidar sensor 120 provides distance information measured using a laser in the form of a set of points in a 3D space (point cloud). For example, each point in the point cloud may include distance information of how many m away from the target and the robot coordinate system in X, Y, and Z directions from the position of the sensor and the reflection coefficient value of the target.

카메라(130)는 차량의 일측에 장착되며, 차량의 주변 영역을 촬영한 이미지를 제공한다. 본 실시예에 있어서, 카메라(130)는 바람직하게는 RGB 이미지를 획득가능한 촬영장치일 수 있다.The camera 130 is mounted on one side of the vehicle and provides an image of a surrounding area of the vehicle. In this embodiment, the camera 130 may preferably be a photographing device capable of acquiring an RGB image.

카메라(130)는 촬영된 이미지와 더불어, 해당 이미지에 대하여 측정된 RGB 좌표계 정보를 추가로 제공한다.The camera 130 additionally provides information about the RGB coordinate system measured for the image along with the captured image.

한편, 본 실시예에서는 차량(100)에 장착되는 라이다 센서(120) 및 카메라(130)의 위치에 대하여 특정 위치로서 한정하지는 않는다.Meanwhile, in the present embodiment, the positions of the lidar sensor 120 and the camera 130 mounted on the vehicle 100 are not limited as specific positions.

도 3은 본 실시예에 따른 3D 객체 검출장치를 개략적으로 나타낸 블록 구성도이다.3 is a block diagram schematically illustrating a 3D object detecting apparatus according to the present embodiment.

도 3에 도시된 바와 같이, 본 실시예에 따른 3D 객체 검출장치(110)는 데이터 획득부(300), 색상정보 산출부(310), 데이터 정합부(320) 및 검출부(330)를 포함한다. 여기서, 3D 객체 검출장치(110)에 포함되는 구성요소는 반드시 이에 한정되는 것은 아니다.As shown in FIG. 3 , the 3D object detection apparatus 110 according to the present embodiment includes a data acquisition unit 300 , a color information calculation unit 310 , a data matching unit 320 , and a detection unit 330 . . Here, the components included in the 3D object detecting apparatus 110 are not necessarily limited thereto.

한편, 도 3에서 데이터 획득부(300), 색상정보 산출부(310), 데이터 정합부(320)는 앞서 도 2의 proposal ensemble network에 대응하며, 검출부(330)는 segmentation 구간에 대응될 수 있다.Meanwhile, in FIG. 3 , the data acquisition unit 300 , the color information calculation unit 310 , and the data matching unit 320 correspond to the proposal ensemble network of FIG. 2 , and the detection unit 330 may correspond to the segmentation section. .

데이터 획득부(300)는 외부 기기와 연계되어 3D 객체 검출을 위한 데이터를 획득하는 기능을 수행한다.The data acquisition unit 300 performs a function of acquiring data for 3D object detection in connection with an external device.

데이터 획득부(300)는 라이다 센서(120)와 연계되어, 라이다 센서(120)가 차량(100)의 주변 영역에 대하여 수집한 라이다 데이터를 획득한다. 이러한, 라이다 데이터는 라이다 센서(120)가 레이저를 이용하여 측정한 거리정보를 3D 공간에서 점들의 집합 형태로 나타낸 포인트 클라우드 정보일 수 있다.The data acquisition unit 300 is linked with the lidar sensor 120 to acquire lidar data collected by the lidar sensor 120 for the surrounding area of the vehicle 100 . Such lidar data may be point cloud information in which distance information measured by the lidar sensor 120 using a laser is expressed in the form of a set of dots in 3D space.

데이터 획득부(300)는 카메라(130)와 연계되어, 카메라(130)에 의해 촬영된 차량(100)의 주변 영역에 대한 이미지를 획득한다.The data acquisition unit 300 is linked with the camera 130 to acquire an image of the surrounding area of the vehicle 100 photographed by the camera 130 .

데이터 획득부(300)는 카메라(130)로부터 주변 영역에 대한 이미지와 더불어, 해당 이미지에 대하여 측정된 캘리브레이션(calibration) 정보 예컨대, RGB 좌표계 정보를 추가로 제공받을 수 있다. RGB 좌표계 정보는 이미지 내 각 픽셀별로 대응되는 RGB 요소를 하나의 축으로 하는 3차원 좌표계 정보를 의미한다.The data acquisition unit 300 may additionally receive, from the camera 130 , calibration information, for example, RGB coordinate system information, measured with respect to the image, along with the image of the surrounding area. The RGB coordinate system information refers to three-dimensional coordinate system information in which an RGB element corresponding to each pixel in an image is used as one axis.

색상정보 산출부(310)는 데이터 획득부(300)를 이용하여 획득한 카메라(130)의 이미지 내 객체가 존재하는 영역을 검출하고, 검출된 객체 영역에 대한 RGB 색상정보를 산출한다.The color information calculating unit 310 detects an area in which an object exists in the image of the camera 130 obtained by using the data obtaining unit 300 and calculates RGB color information for the detected object area.

본 실시예에 있어서, 색상정보 산출부(310)의 이미지를 제1 학습모델에 적용하여 이미지 내 객체가 존재하는 영역을 검출할 수 있다. 여기서, 제1 학습모델은 각 오브젝트의 성향에 맞게 사전에 학습된 적어도 하나의 모델(ex: VENET, PENET)을 포함하는 형태로 구성되며, 이를 토대로, 이미지 기반의 강력한 인식 성능을 갖도록 구현될 수 있다. 예컨대, 제1 학습모델은 적어도 하나 이상의 네트워크 구조로 이루어지고, 각 네트워크는 2D 이미지 기반의 2차원 인식 알고리즘을 이용하여 이미지 내 2차원 객체 영역을 검출하도록 사전 학습될 수 있다In this embodiment, an image of the color information calculating unit 310 may be applied to the first learning model to detect a region in which an object exists in the image. Here, the first learning model is configured in a form including at least one model (ex: VENET, PENET) trained in advance according to the propensity of each object, and based on this, it can be implemented to have strong image-based recognition performance. have. For example, the first learning model may have at least one or more network structures, and each network may be pre-trained to detect a two-dimensional object region in an image using a two-dimensional recognition algorithm based on a 2D image.

보다 자세하게는 본 실시예에 따른 제1 학습모델은 Tensorflow Object Detection API를 기반으로 구현되며, 성능을 올리기 위하여 Faster rcnn with inception resnet v2 모델을 기초로 하여 이를 PANet으로 개선하여 구현될 수 있다. PANet은 기존 Mask RCNN 모델에 FPN을 백본으로 하여 Augmented bottom-up structure, Adaptive Feature Pooling, Fully Connected Fusion layer를 추가한 구조로 이루어진다.In more detail, the first learning model according to this embodiment is implemented based on the Tensorflow Object Detection API, and in order to increase performance, it can be implemented by improving it with PANet based on the Faster rcnn with inception resnet v2 model. PANet consists of a structure in which Augmented bottom-up structure, Adaptive Feature Pooling, and Fully Connected Fusion layer are added with FPN as a backbone to the existing Mask RCNN model.

색상정보 산출부(310)는 이미지를 상기의 제1 학습모델에 적용시켜 학습시킴으로써 2차원 이미지 상에서의 2D 바운딩 박스(bounding box)로 정의되는 객체 영역을 검출할 수 있다The color information calculator 310 may detect an object area defined as a 2D bounding box on a 2D image by applying the image to the first learning model and learning it.

색상정보 산출부(310)는 데이터 획득부(300)를 이용하여 획득한 RGB 좌표계 정보를 활용하여 상기의 객체 영역에 대응하는 RGB 색상정보를 수집한다. 예컨대, 색상정보 산출부(310)는 이미지에 대하여 수집된 RGB 좌표계 정보를 토대로, 이미지 내 객체 영역에 상응하는 RGB 좌표계 정보를 산출하고, 산출된 RGB 좌표계 정보의 색상 값을 RGB로 분해하여 RGB 색상정보를 수집할 수 있다.The color information calculating unit 310 collects RGB color information corresponding to the object region by using the RGB coordinate system information obtained using the data obtaining unit 300 . For example, the color information calculating unit 310 calculates RGB coordinate system information corresponding to an object region in the image based on the RGB coordinate system information collected for the image, and decomposes the color value of the calculated RGB coordinate system information into RGB to obtain an RGB color. information can be collected.

데이터 정합부(320)는 라이다 데이터 중 색상정보 산출부(310)를 이용하여 검출된 객체 영역에 대응하는 포인트 클라우드 정보를 산출하고, 산출된 포인트 클라우드 정보와 앞서 수집된 RGB 색상정보를 정합하여 정합 데이터(=XYZRGB 채널)를 생성한다.The data matching unit 320 calculates point cloud information corresponding to the detected object area using the color information calculation unit 310 among the lidar data, and matches the calculated point cloud information with the previously collected RGB color information. Generate matching data (=XYZRGB channel).

본 실시예에 있어서, 데이터 정합부(320)는 산출된 포인트 클라우드 정보를 2차원의 이미지 좌표 상에 투영하고, 해당 이미지 좌표 및 카메라로부터 수집한 RGB 좌표계 정보를 기반으로 포인트 클라우드 정보 및 RGB 색상정보를 정합할 수 있다. 예컨대, 데이터 정합부(320)는 산출된 포인트 클라우드 정보를 2차원의 이미지 좌표 상에 투영하여 UV 맵을 생성하고, RGB 좌표계 정보를 기반으로 RGB 색상정보를 UV 맵 상에 대응되는 좌표 상에 매핑시켜 정합 데이터를 생성할 수 있다.In this embodiment, the data matching unit 320 projects the calculated point cloud information on two-dimensional image coordinates, and based on the corresponding image coordinates and RGB coordinate system information collected from the camera, point cloud information and RGB color information can be matched. For example, the data matching unit 320 generates a UV map by projecting the calculated point cloud information on two-dimensional image coordinates, and maps RGB color information on the coordinates corresponding to the UV map based on the RGB coordinate system information. to generate matching data.

데이터 정합부(320)는 라이다 데이터 중 색상정보 산출부(310)를 이용하여 검출된 객체 영역에 대응하는 포인트 클라우드 정보를 산출하기 앞서, 라이다 데이터에 대한 크롭(crop) 처리를 수행할 수 있다. 예컨대, 데이터 정합부(320)는 카메라(130)의 시야(FOV: Field of View) 각도정보를 확인하고, 시야 각도정보에 기반하여 라이다 데이터에 대한 크롭 처리를 수행할 수 있다.The data matching unit 320 may perform crop processing on the lidar data before calculating the point cloud information corresponding to the object region detected by using the color information calculating unit 310 among the lidar data. have. For example, the data matching unit 320 may check field of view (FOV) angle information of the camera 130 and perform crop processing on the lidar data based on the field of view angle information.

예컨대, 도 5를 참조하면, 데이터 정합부(320)에 의해 산출된 정합 데이터의 형태를 확인할 수 있다. 이러한, 정합 데이터를 살펴보면, 포인트 클라우드 정보 상에 RGB 색상정보가 정합되어 표시되며, 그 크기 또한 카메라(130)의 시야(FOV: Field of View) 각도정보에 따라 크롭 처리된 것을 확인할 수 있다.For example, referring to FIG. 5 , the form of matching data calculated by the data matching unit 320 may be checked. Looking at the matching data, it can be seen that the RGB color information is matched and displayed on the point cloud information, and the size is also cropped according to the field of view (FOV) angle information of the camera 130 .

검출부(330)는 정합 데이터를 기반으로, 앞서 이미지 상에서 검출된 객체 영역에 상응하는 3차원 객체 영역을 검출한다.The detection unit 330 detects a 3D object area corresponding to the previously detected object area on the image based on the matching data.

본 실시예에 있어서, 검출부(330)는 정합 데이터를 제2 학습모델에 적용하여 정합 데이터 내 객체가 존재하는 영역을 검출할 수 있다. 여기서, 제2 학습모델은 적어도 하나 이상의 네트워크 구조로 이루어지고, 2D 이미지에 대응하는 정합 데이터 기반의 3차원 인식 알고리즘을 이용하여 정합 데이터 내 3차원 객체 영역을 검출하도록 사전 학습될 수 있다.In the present embodiment, the detector 330 may detect a region in which an object exists in the matching data by applying the matching data to the second learning model. Here, the second learning model may have at least one network structure and may be pre-trained to detect a 3D object region in the matching data using a 3D recognition algorithm based on matching data corresponding to a 2D image.

본 실시예에서는 제2 학습모델에 대하여 특정 학습모델로서 한정하지 않는다. 예컨대, 제2 학습모델은 라이다 데이터를 기반으로 3차원 객체 영역을 검출하는 종래의 다양한 학습 모델을 토대로 구현될 수 있다.In this embodiment, the second learning model is not limited as a specific learning model. For example, the second learning model may be implemented based on various conventional learning models for detecting a 3D object region based on lidar data.

검출부(330)는 정합 데이터를 상기의 제2 학습모델에 적용시켜 학습시킴으로써 3차원 공간 상에서의 3D 바운딩 박스로 정의되는 객체 영역을 검출할 수 있다.The detection unit 330 may detect an object region defined as a 3D bounding box in a 3D space by applying the matching data to the second learning model and learning it.

한편, 종래의 경우, 동일한 물체임에도 불구하고 3D 바운딩 박스와 2D 바운딩 박스가 이미지 평면(image plane) 상에 서로 상이한 위치정보를 갖는 경우가 빈번하였다. 이 점에 기인하여, 본 실시예에 따른 검출부(330)는 검출된 3차원 객체 영역에 대하여 재평가를 수행할 수 있다.On the other hand, in the case of the prior art, it was frequent that the 3D bounding box and the 2D bounding box have different positional information on an image plane despite being the same object. Due to this, the detector 330 according to the present embodiment may re-evaluate the detected 3D object region.

즉, 검출부(330)는 3D 바운딩 박스를 색상정보 산출부(310)를 이용하여 산출된 2D 바운딩 박스와 비교하고, 비교결과에 따라 산출되는 두 바운딩 박스 간의 크기 및 위치의 오차 값을 손실(loss) 정보로서 활용한다.That is, the detection unit 330 compares the 3D bounding box with the 2D bounding box calculated using the color information calculating unit 310, and loses the error values of the size and position between the two bounding boxes calculated according to the comparison result. ) as information.

예컨대, 도 6을 참조하면, 검출부(330)가 2D 바운딩 박스 및 3D 바운딩 박스를 이미지 평면 상에 투영하고, 각 바운딩 박스의 코너 점을 기반으로 각 바운딩 박스의 크기 및 위치를 비교하는 것을 확인할 수 있다.For example, referring to FIG. 6 , it can be confirmed that the detector 330 projects the 2D bounding box and the 3D bounding box on the image plane, and compares the size and position of each bounding box based on the corner points of each bounding box. have.

일반적으로 차량(100)은 중력의 영향으로 지면에 밀착하게 된다. 이로 인해 차량(100) 내 3D 객체 검출장치(110)를 통해 검출되는 객체의 경우 또한 지면에 밀착되는 형태로 검출되는 것이 일반적이나 간혹 인식 오차로 인해 지면에서 동떨어진 형태로 검출되는 경우가 발생할 수 있다. 이 점에 기인하여, 검출부(330)는 포인트 클라우드 정보로부터 추출한 기준 평면(ground plane)을 토대로 지면에서 3D 바운딩 박스까지의 거리차를 계산하고, 이를 손실 정보로서 추가 활용할 수 있다.In general, the vehicle 100 is in close contact with the ground under the influence of gravity. For this reason, in the case of an object detected through the 3D object detection device 110 in the vehicle 100, it is also generally detected in a form in close contact with the ground, but in some cases, it may be detected in a form separated from the ground due to a recognition error. . Due to this point, the detection unit 330 may calculate a distance difference from the ground to the 3D bounding box based on a ground plane extracted from the point cloud information, and additionally utilize this as loss information.

검출부(330)는 검출된 3차원 객체 영역을 토대로 3D 라벨링 데이터를 생성하고, 생성한 3D 라벨링 데이터를 3D 객체 검출을 위한 학습 데이터로서 제공한다.The detection unit 330 generates 3D labeling data based on the detected 3D object region, and provides the generated 3D labeling data as learning data for 3D object detection.

본 실시예에 있어서, 검출부(330)는 3차원 객체 영역을 직접 편집하고 가시화하기 위한 라벨링 툴을 구비하고, 이를 활용하여 3D 라벨링 데이터를 생성할 수 있다.In the present embodiment, the detection unit 330 may be provided with a labeling tool for directly editing and visualizing the 3D object region, and may generate 3D labeling data by using the labeling tool.

검출부(330)는 생성한 3D 라벨링 데이터를 검출부(330) 내 구비된 제2 학습모델을 학습 데이터로서 활용할 수 있다. 본 실시예의 경우 검출부(330)를 통해 생성된 3D 라벨링 데이터를 학습 데이터로 하여 제2 학습모델을 지속적으로 학습시킴에 따라 3D 객체 검출과 관련하여 더욱 더 높은 인식 성능을 갖도록 하는 효과가 있다.The detection unit 330 may use the generated 3D labeling data as training data using the second learning model provided in the detection unit 330 . In the present embodiment, as the second learning model is continuously learned using the 3D labeling data generated by the detection unit 330 as learning data, there is an effect of having higher recognition performance in relation to 3D object detection.

도 4는 본 실시예에 따른 3D 객체 검출방법을 설명하기 위한 순서도이다.4 is a flowchart illustrating a 3D object detection method according to the present embodiment.

3D 객체 검출장치(110)는 카메라(130) 및 라이다 센서(120)로부터 차량(100)의 주변 영역에 대하여 수집된 이미지 및 라이다 데이터를 획득한다(S402). The 3D object detection apparatus 110 obtains images and lidar data collected for the surrounding area of the vehicle 100 from the camera 130 and the lidar sensor 120 ( S402 ).

3D 객체 검출장치(110)는 단계 S402에서 획득한 이미지를 제1 학습모델에 적용하여 이미지 내 객체가 존재하는 영역을 검출하고, 검출한 객체 영역에 대한 RGB 색상정보를 산출한다(S404). 단계 S402에서 제1 학습모델은 적어도 하나 이상의 네트워크 구조로 이루어지고, 각 네트워크는 2D 이미지 기반의 2차원 인식 알고리즘을 이용하여 이미지 내 2차원 객체 영역을 검출하도록 사전 학습된다.The 3D object detection apparatus 110 applies the image obtained in step S402 to the first learning model to detect a region in which an object exists in the image, and calculates RGB color information for the detected object region (S404). In step S402, the first learning model consists of at least one network structure, and each network is pre-trained to detect a two-dimensional object region in an image using a two-dimensional recognition algorithm based on a 2D image.

3D 객체 검출장치(110)는 이미지를 제1 학습모델에 적용시켜 학습시킴으로써 2차원 이미지 상에서의 2D 바운딩 박스로 정의되는 객체 영역을 검출할 수 있다The 3D object detection apparatus 110 may detect an object area defined as a 2D bounding box on a 2D image by applying the image to the first learning model and learning it.

3D 객체 검출장치(110)는 카메라(130)로부터 추가 획득한 RGB 좌표계 정보를 활용하여 객체 영역에 대응하는 RGB 색상정보를 수집한다.The 3D object detection apparatus 110 collects RGB color information corresponding to the object region by using the RGB coordinate system information additionally acquired from the camera 130 .

3D 객체 검출장치(110)는 라이다 데이터 중 단계 S404의 객체 영역에 대응하는 포인트 클라우드 정보를 산출하고, 산출한 포인트 클라우드 정보 및 단계 S404의 RGB 색상정보를 정합하여 정합 데이터를 생성한다(S406). 단계 S406에서 3D 객체 검출장치(110)는 산출된 포인트 클라우드 정보를 2차원의 이미지 좌표 상에 투영하여 UV 맵을 생성하고, RGB 좌표계 정보를 기반으로 RGB 색상정보를 UV 맵 상에 대응되는 좌표 상에 매핑시켜 정합 데이터를 생성한다.The 3D object detection apparatus 110 calculates point cloud information corresponding to the object area of step S404 among the lidar data, and generates matching data by matching the calculated point cloud information with the RGB color information of step S404 (S406) . In step S406, the 3D object detection apparatus 110 projects the calculated point cloud information onto the two-dimensional image coordinates to generate a UV map, and based on the RGB coordinate system information, the RGB color information is projected onto the coordinates corresponding to the UV map. to create matching data.

3D 객체 검출장치(110)는 단계 S408의 정합 데이터를 제2 학습모델에 적용하여 단계 S404의 객체 영역에 상응하는 3차원 객체 영역을 검출한다(S408). 단계 S408에서 제2 학습모델은 적어도 하나 이상의 네트워크 구조로 이루어지고, 2D 이미지에 대응하는 정합 데이터 기반의 3차원 인식 알고리즘을 이용하여 정합 데이터 내 3차원 객체 영역을 검출하도록 사전 학습된다.The 3D object detection apparatus 110 detects a 3D object area corresponding to the object area of step S404 by applying the matching data of step S408 to the second learning model (S408). In step S408, the second learning model has at least one network structure and is pre-trained to detect a 3D object region in the registration data using a 3D recognition algorithm based on matching data corresponding to the 2D image.

3D 객체 검출장치(110)는 정합 데이터를 상기의 제2 학습모델에 적용시켜 학습시킴으로써 3차원 공간 상에서의 3D 바운딩 박스로 정의되는 객체 영역을 검출한다.The 3D object detection apparatus 110 detects an object area defined as a 3D bounding box in a 3D space by applying the matching data to the second learning model and learning it.

3D 객체 검출장치(110)는 3D 바운딩 박스를 단계 S404에서 산출된 2D 바운딩 박스와 비교하고, 비교결과에 따라 산출되는 두 바운딩 박스 간의 크기 및 위치의 오차 값을 손실 정보로서 활용한다.The 3D object detection apparatus 110 compares the 3D bounding box with the 2D bounding box calculated in step S404, and uses the error value of the size and position between the two bounding boxes calculated according to the comparison result as loss information.

3D 객체 검출장치(110)는 포인트 클라우드 정보로부터 추출한 기준 평면을 토대로 지면에서 3D 바운딩 박스까지의 거리차를 계산하고, 이를 손실 정보로서 추가 활용한다.The 3D object detection apparatus 110 calculates a distance difference from the ground to the 3D bounding box based on the reference plane extracted from the point cloud information, and additionally uses this as loss information.

여기서, 단계 S402 내지 S408 앞서 설명된 3D 객체 검출장치(110)의 각 구성요소의 동작에 대응되므로 더 이상의 상세한 설명은 생략한다.Here, since steps S402 to S408 correspond to the operation of each component of the 3D object detecting apparatus 110 described above, further detailed description will be omitted.

도 4에서는 각각의 과정을 순차적으로 실행하는 것으로 기재하고 있으나, 반드시 이에 한정되는 것은 아니다. 다시 말해, 도 4에 기재된 과정을 변경하여 실행하거나 하나 이상의 과정을 병렬적으로 실행하는 것으로 적용 가능할 것이므로, 도 4는 시계열적인 순서로 한정되는 것은 아니다.Although it is described that each process is sequentially executed in FIG. 4 , it is not necessarily limited thereto. In other words, since it may be applicable to changing and executing the process described in FIG. 4 or executing one or more processes in parallel, FIG. 4 is not limited to a time series sequence.

전술한 바와 같이 도 4에 기재된 3D 객체 검출방법은 프로그램으로 구현되고 컴퓨터의 소프트웨어를 이용하여 읽을 수 있는 기록매체(CD-ROM, RAM, ROM, 메모리 카드, 하드 디스크, 광자기 디스크, 스토리지 디바이스 등)에 기록될 수 있다.As described above, the 3D object detection method described in FIG. 4 is implemented as a program and is a readable recording medium (CD-ROM, RAM, ROM, memory card, hard disk, magneto-optical disk, storage device, etc.) ) can be recorded.

이상의 설명은 본 실시예의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 실시예의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 실시예들은 본 실시예의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 실시예의 기술 사상의 범위가 한정되는 것은 아니다. 본 실시예의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 실시예의 권리범위에 포함되는 것으로 해석되어야 할 것이다.The above description is merely illustrative of the technical idea of this embodiment, and various modifications and variations will be possible by those skilled in the art to which this embodiment belongs without departing from the essential characteristics of the present embodiment. Accordingly, the present embodiments are for explanation rather than limiting the technical spirit of the present embodiment, and the scope of the technical spirit of the present embodiment is not limited by these embodiments. The protection scope of this embodiment should be interpreted by the following claims, and all technical ideas within the equivalent range should be interpreted as being included in the scope of the present embodiment.

110: 3D 객체 검출장치 120: 라이다 센서
130: 카메라 300: 데이터 획득부
310: 색상정보 산출부 320: 데이터 정합부
330: 검출부
110: 3D object detection device 120: lidar sensor
130: camera 300: data acquisition unit
310: color information calculation unit 320: data matching unit
330: detection unit

Claims (12)

카메라 및 라이다 센서로부터 차량의 주변 영역에 대하여 수집된 이미지 및 라이다 데이터를 획득하는 데이터 획득부;
상기 이미지를 제1 학습모델에 적용하여 상기 이미지 내 객체가 존재하는 객체 영역을 검출하고, 상기 객체 영역에 대한 RGB 색상정보를 산출하는 색상정보 산출부;
상기 라이다 데이터 중 상기 객체 영역에 대응하는 포인트 클라우드 정보를 산출하고, 상기 포인트 클라우드 정보 및 상기 RGB 색상정보를 정합하여 정합 데이터를 생성하는 데이터 정합부; 및
상기 정합 데이터를 제2 학습모델에 적용하여 상기 객체 영역에 상응하는 3차원 객체 영역을 검출하는 검출부
를 포함하는 것을 특징으로 하는 3D 객체 검출장치.
a data acquisition unit configured to acquire images and lidar data collected from a camera and a lidar sensor for an area around the vehicle;
a color information calculating unit for detecting an object region in which an object in the image exists by applying the image to a first learning model, and calculating RGB color information for the object region;
a data matching unit that calculates point cloud information corresponding to the object region among the lidar data, and generates matching data by matching the point cloud information and the RGB color information; and
A detection unit that detects a three-dimensional object region corresponding to the object region by applying the matching data to a second learning model
3D object detection device comprising a.
제 1항에 있어서,
상기 제1 학습모델은 적어도 하나 이상의 네트워크 구조로 이루어지고, 2D 이미지 기반의 2차원 인식 알고리즘을 이용하여 상기 이미지 내 2차원 객체 영역을 검출하도록 사전 학습되며,
상기 제2 학습모델은 적어도 하나 이상의 네트워크 구조로 이루어지고, 상기 2D 이미지에 대응하는 정합 데이터 기반의 3차원 인식 알고리즘을 이용하여 상기 정합 데이터 내 상기 3차원 객체 영역을 검출하도록 사전 학습된 것을 특징으로 하는 3D 객체 검출장치.
The method of claim 1,
The first learning model consists of at least one network structure, and is pre-trained to detect a two-dimensional object region in the image using a two-dimensional recognition algorithm based on a 2D image,
The second learning model has at least one network structure and is pre-trained to detect the 3D object region in the matching data using a 3D recognition algorithm based on matching data corresponding to the 2D image. 3D object detection device.
제 1항에 있어서,
상기 데이터 획득부는 상기 카메라로부터 상기 이미지에 대응하는 RGB 좌표계 정보를 추가로 수집하며,
상기 색상정보 산출부는 상기 RGB 좌표계 정보를 기반으로 상기 객체 영역의 상기 RGB 색상정보를 수집하는 것을 특징으로 하는 3D 객체 검출장치.
The method of claim 1,
The data acquisition unit additionally collects RGB coordinate system information corresponding to the image from the camera,
The color information calculator collects the RGB color information of the object region based on the RGB coordinate system information.
제 1항에 있어서,
상기 데이터 정합부는,
상기 카메라의 시야(FOV: Field of View) 각도정보를 확인하고, 상기 시야 각도정보에 기반하여 상기 라이다 데이터에 대한 크롭(crop) 처리를 수행하는 것을 특징으로 하는 3D 객체 검출장치.
The method of claim 1,
The data matching unit,
3D object detection apparatus, characterized in that it checks field of view (FOV) angle information of the camera, and performs crop processing on the lidar data based on the field of view angle information.
제 1항에 있어서,
상기 데이터 정합부는,
상기 포인트 클라우드 정보를 2차원의 이미지 좌표 상에 투영하고, 상기 이미지 좌표 및 상기 카메라로부터 수집한 RGB 좌표계 정보를 기반으로 상기 포인트 클라우드 정보 및 상기 RGB 색상정보를 정합하는 것을 특징으로 하는 3D 객체 검출장치.
The method of claim 1,
The data matching unit,
Projecting the point cloud information on two-dimensional image coordinates, and matching the point cloud information and the RGB color information based on the image coordinates and the RGB coordinate system information collected from the camera .
제 5항에 있어서,
상기 데이터 정합부는,
상기 포인트 클라우드 정보를 상기 이미지 좌표 상에 투영하여 UV 맵을 생성하고, 상기 RGB 좌표계 정보를 기반으로 상기 RGB 색상정보를 상기 UV 맵 상에 대응되는 좌표 상에 매핑시켜 상기 정합 데이터를 생성하는 것을 특징으로 하는 3D 객체 검출장치.
6. The method of claim 5,
The data matching unit,
generating a UV map by projecting the point cloud information onto the image coordinates, and mapping the RGB color information to coordinates corresponding to the UV map based on the RGB coordinate system information to generate the matching data 3D object detection device.
제 1항에 있어서,
상기 색상정보 산출부 및 상기 검출부는 각각 2차원 이미지 상에서의 2D 바운딩 박스(bounding box) 및 3차원 공간 상에서의 3D 바운딩 박스로 정의되는 객체 영역을 검출하는 것을 특징으로 하는 3D 객체 검출장치.
The method of claim 1,
The 3D object detection apparatus of claim 1, wherein the color information calculating unit and the detecting unit detect an object area defined by a 2D bounding box on a 2D image and a 3D bounding box on a 3D space, respectively.
제 7항에 있어서,
상기 검출부는,
상기 2D 바운딩 박스 및 상기 3D 바운딩 박스의 크기 및 위치를 비교하고, 비교결과에 따라 산출되는 상기 크기 및 위치의 오차 값을 손실(loss) 정보로서 활용하는 것을 특징으로 하는 3D 객체 검출장치.
8. The method of claim 7,
The detection unit,
3D object detection apparatus, characterized in that the size and position of the 2D bounding box and the 3D bounding box are compared, and an error value of the size and position calculated according to the comparison result is used as loss information.
제 8항에 있어서,
상기 검출부는,
상기 2D 바운딩 박스 및 상기 3D 바운딩 박스를 이미지 평면(image plane) 상에 투영하고, 각 바운딩 박스의 코너 점을 기반으로 각 바운딩 박스의 크기 및 위치를 비교하는 것을 특징으로 하는 3D 객체 검출장치.
9. The method of claim 8,
The detection unit,
Projecting the 2D bounding box and the 3D bounding box on an image plane, and comparing the size and position of each bounding box based on the corner points of each bounding box.
제 8항에 있어서,
상기 검출부는,
상기 포인트 클라우드 정보로부터 추출한 기준 평면(ground plane)을 토대로 지면에서 상기 3D 바운딩 박스까지의 거리차를 계산하고, 상기 거리차를 손실 정보로서 추가 활용하는 것을 특징으로 하는 3D 객체 검출장치.
9. The method of claim 8,
The detection unit,
3D object detection apparatus, characterized in that the distance difference from the ground to the 3D bounding box is calculated based on a ground plane extracted from the point cloud information, and the distance difference is additionally utilized as loss information.
제 1항에 있어서,
상기 검출부는,
상기 3차원 객체 영역을 토대로 3D 라벨링 데이터를 생성하며, 상기 3D 라벨링 데이터를 3D 객체 검출을 위한 학습 데이터로서 제공하는 것을 특징으로 하는 3D 객체 검출장치.
The method of claim 1,
The detection unit,
3D object detection apparatus, characterized in that generating 3D labeling data based on the 3D object region, and providing the 3D labeling data as learning data for 3D object detection.
카메라 및 라이다 센서로부터 차량의 주변 영역에 대하여 수집된 이미지 및 라이다 데이터를 획득하는 과정;
상기 이미지를 제1 학습모델에 적용하여 상기 이미지 내 객체가 존재하는 객체 영역을 검출하고, 상기 객체 영역에 대한 RGB 색상정보를 산출하는 과정;
상기 라이다 데이터 중 상기 객체 영역에 대응하는 포인트 클라우드 정보를 산출하고, 상기 포인트 클라우드 정보 및 상기 RGB 색상정보를 정합하여 정합 데이터를 생성하는 과정; 및
상기 정합 데이터를 제2 학습모델에 적용하여 상기 객체 영역에 상응하는 3차원 객체 영역을 검출하는 과정
을 포함하는 것을 특징으로 하는 3D 객체 검출방법.
a process of acquiring images and lidar data collected for a surrounding area of the vehicle from a camera and a lidar sensor;
detecting an object region in which an object in the image exists by applying the image to a first learning model, and calculating RGB color information for the object region;
calculating point cloud information corresponding to the object region among the lidar data, and generating matching data by matching the point cloud information and the RGB color information; and
A process of detecting a three-dimensional object region corresponding to the object region by applying the matching data to a second learning model
3D object detection method comprising a.
KR1020200003551A 2020-01-10 2020-01-10 Method and Apparatus for Detecting 3D Object Using Camera and Lidar Sensor KR20210090384A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200003551A KR20210090384A (en) 2020-01-10 2020-01-10 Method and Apparatus for Detecting 3D Object Using Camera and Lidar Sensor

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200003551A KR20210090384A (en) 2020-01-10 2020-01-10 Method and Apparatus for Detecting 3D Object Using Camera and Lidar Sensor

Publications (1)

Publication Number Publication Date
KR20210090384A true KR20210090384A (en) 2021-07-20

Family

ID=77127446

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200003551A KR20210090384A (en) 2020-01-10 2020-01-10 Method and Apparatus for Detecting 3D Object Using Camera and Lidar Sensor

Country Status (1)

Country Link
KR (1) KR20210090384A (en)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102365873B1 (en) * 2021-10-15 2022-02-23 (주)넥스트박스 Fusion method and fusion system of shape coordinates and data labeling
CN114373105A (en) * 2021-12-20 2022-04-19 华南理工大学 Method, system, device and medium for point cloud marking and data set production
KR102426844B1 (en) * 2021-11-02 2022-08-22 (주)넥스트박스 Data conversion and processing system including image recording device and network server and method using the system
KR102480062B1 (en) * 2022-02-15 2022-12-23 주식회사 인피닉 Method for generate training data through 3D object recognition and synthesizing into virtual space, and computer program recorded on record-medium for executing method therefor
KR20230063556A (en) * 2021-11-02 2023-05-09 연세대학교 산학협력단 3D Modeling Generation System and Method Based on Deep Learning and Point Cloud Data Acquisition Using Mobile object
KR102642920B1 (en) * 2023-07-20 2024-03-04 주식회사 아즈라 System for providing eartip optimization service using ear shape and size

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102365873B1 (en) * 2021-10-15 2022-02-23 (주)넥스트박스 Fusion method and fusion system of shape coordinates and data labeling
KR102426844B1 (en) * 2021-11-02 2022-08-22 (주)넥스트박스 Data conversion and processing system including image recording device and network server and method using the system
KR20230063556A (en) * 2021-11-02 2023-05-09 연세대학교 산학협력단 3D Modeling Generation System and Method Based on Deep Learning and Point Cloud Data Acquisition Using Mobile object
CN114373105A (en) * 2021-12-20 2022-04-19 华南理工大学 Method, system, device and medium for point cloud marking and data set production
KR102480062B1 (en) * 2022-02-15 2022-12-23 주식회사 인피닉 Method for generate training data through 3D object recognition and synthesizing into virtual space, and computer program recorded on record-medium for executing method therefor
KR102642920B1 (en) * 2023-07-20 2024-03-04 주식회사 아즈라 System for providing eartip optimization service using ear shape and size

Similar Documents

Publication Publication Date Title
CN111126269B (en) Three-dimensional target detection method, device and storage medium
US9990736B2 (en) Robust anytime tracking combining 3D shape, color, and motion with annealed dynamic histograms
KR20210090384A (en) Method and Apparatus for Detecting 3D Object Using Camera and Lidar Sensor
US10859684B1 (en) Method and system for camera-lidar calibration
US10129521B2 (en) Depth sensing method and system for autonomous vehicles
US10915793B2 (en) Method and system for converting point cloud data for use with 2D convolutional neural networks
US9846812B2 (en) Image recognition system for a vehicle and corresponding method
KR102267562B1 (en) Device and method for recognition of obstacles and parking slots for unmanned autonomous parking
US9330472B2 (en) System and method for distorted camera image correction
CN110794406B (en) Multi-source sensor data fusion system and method
EP2960858B1 (en) Sensor system for determining distance information based on stereoscopic images
KR101714783B1 (en) Apparatus and method for detecting obstacle for on-line electric vehicle based on GPU
JP2006252473A (en) Obstacle detector, calibration device, calibration method and calibration program
CN110717445A (en) Front vehicle distance tracking system and method for automatic driving
US11842440B2 (en) Landmark location reconstruction in autonomous machine applications
JP7389729B2 (en) Obstacle detection device, obstacle detection system and obstacle detection method
JP2022045947A5 (en)
JP6701057B2 (en) Recognizer, program
KR20200102108A (en) Apparatus for detecting object of vehicle and method thereof
US11880996B2 (en) Apparatus for acquiring surrounding information of vehicle and method for controlling thereof
CN117576665B (en) Automatic driving-oriented single-camera three-dimensional target detection method and system
KR102325124B1 (en) Vehicles providing location information of objects by using machine learning and mono cameras
CN111815667B (en) Method for detecting moving target with high precision under camera moving condition
WO2023234384A1 (en) Map generation device, map generation method, and computer-readable recording medium
Vatavu et al. Vision based Real-time Modeling of Dynamic Unstructured Environments in Driving Scenarios

Legal Events

Date Code Title Description
A201 Request for examination