WO2021187793A1 - 카메라와 레이더 센서 융합 기반 3차원 객체 검출을 위한 전자 장치 및 그의 동작 방법 - Google Patents

카메라와 레이더 센서 융합 기반 3차원 객체 검출을 위한 전자 장치 및 그의 동작 방법 Download PDF

Info

Publication number
WO2021187793A1
WO2021187793A1 PCT/KR2021/002916 KR2021002916W WO2021187793A1 WO 2021187793 A1 WO2021187793 A1 WO 2021187793A1 KR 2021002916 W KR2021002916 W KR 2021002916W WO 2021187793 A1 WO2021187793 A1 WO 2021187793A1
Authority
WO
WIPO (PCT)
Prior art keywords
region
interest
weight
sensing data
roi
Prior art date
Application number
PCT/KR2021/002916
Other languages
English (en)
French (fr)
Inventor
금동석
김영석
Original Assignee
한국과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술원 filed Critical 한국과학기술원
Publication of WO2021187793A1 publication Critical patent/WO2021187793A1/ko

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W40/00Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models
    • B60W40/02Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models related to ambient conditions
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S13/00Systems using the reflection or reradiation of radio waves, e.g. radar systems; Analogous systems using reflection or reradiation of waves whose nature or wavelength is irrelevant or unspecified
    • G01S13/86Combinations of radar systems with non-radar systems, e.g. sonar, direction finder
    • G01S13/867Combination of radar systems with cameras
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60RVEHICLES, VEHICLE FITTINGS, OR VEHICLE PARTS, NOT OTHERWISE PROVIDED FOR
    • B60R21/00Arrangements or fittings on vehicles for protecting or preventing injuries to occupants or pedestrians in case of accidents or other traffic risks
    • B60R21/01Electrical circuits for triggering passive safety arrangements, e.g. airbags, safety belt tighteners, in case of vehicle accidents or impending vehicle accidents
    • B60R21/013Electrical circuits for triggering passive safety arrangements, e.g. airbags, safety belt tighteners, in case of vehicle accidents or impending vehicle accidents including means for detecting collisions, impending collisions or roll-over
    • B60R21/0134Electrical circuits for triggering passive safety arrangements, e.g. airbags, safety belt tighteners, in case of vehicle accidents or impending vehicle accidents including means for detecting collisions, impending collisions or roll-over responsive to imminent contact with an obstacle, e.g. using radar systems
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W60/00Drive control systems specially adapted for autonomous road vehicles
    • B60W60/001Planning or execution of driving tasks
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S13/00Systems using the reflection or reradiation of radio waves, e.g. radar systems; Analogous systems using reflection or reradiation of waves whose nature or wavelength is irrelevant or unspecified
    • G01S13/88Radar or analogous systems specially adapted for specific applications
    • G01S13/89Radar or analogous systems specially adapted for specific applications for mapping or imaging
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S13/00Systems using the reflection or reradiation of radio waves, e.g. radar systems; Analogous systems using reflection or reradiation of waves whose nature or wavelength is irrelevant or unspecified
    • G01S13/88Radar or analogous systems specially adapted for specific applications
    • G01S13/93Radar or analogous systems specially adapted for specific applications for anti-collision purposes
    • G01S13/931Radar or analogous systems specially adapted for specific applications for anti-collision purposes of land vehicles
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S17/00Systems using the reflection or reradiation of electromagnetic waves other than radio waves, e.g. lidar systems
    • G01S17/86Combinations of lidar systems with systems other than lidar, radar or sonar, e.g. with direction finders
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S17/00Systems using the reflection or reradiation of electromagnetic waves other than radio waves, e.g. lidar systems
    • G01S17/88Lidar systems specially adapted for specific applications
    • G01S17/89Lidar systems specially adapted for specific applications for mapping or imaging
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S17/00Systems using the reflection or reradiation of electromagnetic waves other than radio waves, e.g. lidar systems
    • G01S17/88Lidar systems specially adapted for specific applications
    • G01S17/93Lidar systems specially adapted for specific applications for anti-collision purposes
    • G01S17/931Lidar systems specially adapted for specific applications for anti-collision purposes of land vehicles
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S7/00Details of systems according to groups G01S13/00, G01S15/00, G01S17/00
    • G01S7/48Details of systems according to groups G01S13/00, G01S15/00, G01S17/00 of systems according to group G01S17/00
    • G01S7/4808Evaluating distance, position or velocity data
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/0088Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots characterized by the autonomous decision making process, e.g. artificial intelligence, predefined behaviours
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0231Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means
    • G05D1/0238Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using obstacle or wall sensors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/60Analysis of geometric attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W2050/0001Details of the control system
    • B60W2050/0019Control system elements or transfer functions
    • B60W2050/0022Gains, weighting coefficients or weighting functions
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W2050/0001Details of the control system
    • B60W2050/0019Control system elements or transfer functions
    • B60W2050/0026Lookup tables or parameter maps
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2420/00Indexing codes relating to the type of sensors based on the principle of their operation
    • B60W2420/40Photo, light or radio wave sensitive means, e.g. infrared sensors
    • B60W2420/403Image sensing, e.g. optical camera
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2420/00Indexing codes relating to the type of sensors based on the principle of their operation
    • B60W2420/40Photo, light or radio wave sensitive means, e.g. infrared sensors
    • B60W2420/408Radar; Laser, e.g. lidar
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2552/00Input parameters relating to infrastructure
    • B60W2552/50Barriers
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2554/00Input parameters relating to objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20076Probabilistic image processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30248Vehicle exterior or interior
    • G06T2207/30252Vehicle exterior; Vicinity of vehicle

Definitions

  • Various embodiments relate to an electronic device for detecting a 3D object based on fusion of a camera and a radar sensor, and an operating method thereof.
  • Various embodiments provide an electronic device capable of improving the accuracy of object recognition technology and an operating method thereof.
  • Various embodiments provide an electronic device capable of providing object recognition technology using different types of sensors and an operating method thereof.
  • Various embodiments provide an electronic device capable of improving the accuracy of object recognition technology while overcoming limitations of each sensor, and an operating method thereof.
  • Various embodiments provide an electronic device for detecting a 3D object based on fusion of a camera module and a radar sensor, and an operating method thereof.
  • a method of operating an electronic device includes extracting a first region of interest from a first feature map extracted from first sensing data, and extracting a second region of interest from a second feature map extracted from second sensing data. extracting , generating a third ROI by fusing the first ROI and the second ROI, and detecting a 3D object based on the third ROI. .
  • An electronic device includes a memory and a processor connected to the memory and configured to execute at least one command stored in the memory, wherein the processor includes a first feature extracted from first sensed data A first region of interest is extracted from the map, a second region of interest is extracted from a second feature map extracted from second sensing data, and a third region of interest is generated by fusing the first region of interest and the second region of interest. and, based on the third region of interest, may be configured to detect a 3D object.
  • a non-transitory computer-readable storage medium includes a first region of interest in a first feature map extracted from first sensing data. extracting; extracting a second region of interest from a second feature map extracted from second sensing data; generating a third region of interest by fusing the first region of interest and the second region of interest; and One or more programs for executing an operation of detecting a 3D object based on the third ROI may be stored.
  • the electronic device may fuse the first region of interest extracted from the first sensing data and the second region of interest extracted from the second sensing data, and detect a 3D object based thereon. That is, the electronic device may fuse the first ROI and the second ROI corresponding to each other in the first sensing data and the second sensing data without fusion of the first sensing data and the second sensing data as a whole.
  • the limitation of at least one of the first sensing data and the second sensing data may be overcome, and furthermore, improved accuracy may be exhibited even with a low amount of calculation in detecting a 3D object.
  • the first sensing data is obtained from the camera module
  • the second sensing data is obtained from a sensor module including at least one of a radar sensor or a lidar sensor, the limit of at least one of the camera module or the sensor module
  • FIG. 1 is a diagram illustrating an electronic device according to various embodiments of the present disclosure
  • FIG. 2 is a diagram illustrating the processor of FIG. 1 .
  • 3, 4, 5, and 6 are diagrams for explaining an operation flow of an electronic device according to various embodiments.
  • FIG. 7 is a diagram illustrating a method of operating an electronic device according to various embodiments of the present disclosure.
  • FIG. 8 is a diagram illustrating a fusion operation of the first region of interest and the second region of interest of FIG. 7 .
  • FIG. 9 is a diagram for describing an operation effect of an electronic device according to various embodiments of the present disclosure.
  • FIG. 1 is a diagram illustrating an electronic device 100 according to various embodiments.
  • FIG. 2 is a diagram illustrating the processor 180 of FIG. 1 .
  • 3, 4, 5, and 6 are diagrams for explaining an operation flow of the electronic device 100 according to various embodiments.
  • an electronic device 100 includes a camera module 110 , a sensor module 120 , a communication module 130 , an input module 140 , an output module 150 , and a driving module. At least one of 160 , a memory 170 , and a processor 180 may be included. In some embodiments, at least one of the components of the electronic device 100 may be omitted or one or more other components may be added to the electronic device 100 .
  • the electronic device 100 may be an autonomous vehicle.
  • the electronic device 100 may be mounted on a vehicle to implement an autonomous driving vehicle.
  • the electronic device 100 may be a monitoring system.
  • the camera module 110 may capture an external image of the electronic device 100 .
  • the camera module 110 may be installed at a predetermined position of the electronic device 100 to capture an external image.
  • the camera module 110 may generate image data for an external image of the electronic device 100 .
  • the camera module 110 may include at least one of a lens, at least one image sensor, an image signal processor, and a flash.
  • the camera module 110 may be an RGB camera.
  • the camera module 110 may be an infrared camera.
  • the sensor module 120 may sense the state of the electronic device 100 or the external environment of the electronic device 100 .
  • the sensor module 120 may generate sensing data for the state of the electronic device 100 or the external environment of the electronic device 100 .
  • the sensor module 120 may include at least one of an acceleration sensor, a gyroscope sensor, an image sensor, a radar (RADAR) sensor, a LiDAR sensor, and an ultrasonic sensor.
  • the communication module 130 may support communication between the electronic device 100 and an external device (not shown).
  • the communication module 130 may include at least one of a wireless communication module and a wired communication module.
  • the wireless communication module may support at least one of a long-distance communication method and a short-range communication method.
  • the short-distance communication method may include, for example, at least one of Bluetooth, WiFi direct, and infrared data association (IrDA).
  • the network may include, for example, at least one of a cellular network, the Internet, or a computer network such as a local area network (LAN) or a wide area network (WAN).
  • the wireless communication module may support communication with a global navigation satellite system (GNSS).
  • the GNSS may include a global positioning system (GPS).
  • the input module 140 may receive a command or data to be used for at least one of the components of the electronic device 100 from the outside of the electronic device 100 .
  • the input module 140 may include at least one of a microphone, a mouse, and a keyboard.
  • the input module may include at least one of a touch circuitry configured to sense a touch or a sensor circuit configured to measure the intensity of a force generated by the touch.
  • the output module 150 may provide information to the outside of the electronic device 100 .
  • the output module 150 may include at least one of a display module and an audio module.
  • the display module may visually output information.
  • the display module may include at least one of a display, a hologram device, and a projector.
  • the display module may be implemented as a touch screen by being assembled with at least one of a touch circuit and a sensor circuit of the input module 140 .
  • the audio module may output information as sound.
  • the audio module may include at least one of a speaker and a receiver.
  • the driving module 160 may drive the electronic device 100 to operate.
  • the driving module 160 may include various components.
  • the driving module 160 may be connected to various parts of the vehicle. Through this, the driving module 160 may drive while controlling at least one of the components.
  • the components may include at least one of an engine module, an acceleration module, a braking module, a steering module, and a navigation module.
  • the memory 170 may store at least one of a program or data used by at least one of the components of the electronic device 100 .
  • the memory 170 may include at least one of a volatile memory and a non-volatile memory.
  • the processor 180 may execute a program in the memory 170 to control at least one of the components of the electronic device 100 and perform data processing or operation.
  • the processor 180 may collect information about the surrounding environment of the electronic device 100 .
  • the processor 180 may acquire the first sensing data and the second sensing data.
  • the processor 180 may recognize a 3D object in the surrounding environment of the electronic device 100 based on information about the surrounding environment of the electronic device 100 .
  • the processor 180 may detect a 3D object based on the first sensing data and the second sensing data.
  • the processor 180 may control the operation of the electronic device 100 based on a 3D object in the surrounding environment of the electronic device 100 .
  • the processor 180 may control the driving module 160 . For example, as shown in FIG.
  • the processor 180 may include a first feature map extraction module 210 , a second feature map extraction module 220 , a region of interest extraction module 230 , and a region of interest fusion module ( 240 ) and a 3D object detection module 250 .
  • the processor 180 may extract the first feature map 313 from the first sensing data 311 .
  • the first sensing data 311 may include image data obtained through the camera module 110 .
  • the first sensing data 311 may have a first resolution and a first coordinate system
  • the first feature map 313 may also have a first resolution and a first coordinate system.
  • the first feature map extraction module 210 may extract the first feature map 313 from the first sensing data 311 as shown in FIG. 3 .
  • the first feature map extraction module 210 may use, for example, at least one of a convolutional neural network (CNN) and histograms of oriented gradients (HOG).
  • CNN convolutional neural network
  • HOG histograms of oriented gradients
  • the processor 180 may extract the second feature map 323 from the second sensing data 321 .
  • the second sensing data 321 may include sensing data acquired through the sensor module 120 .
  • the second sensing data 321 may include point cloud data obtained through at least one of a radar sensor and a lidar sensor.
  • the second sensing data 321 may have a second resolution and a second coordinate system
  • the second feature map 323 may also have a second resolution and a second coordinate system.
  • the second feature map extraction module 220 may extract the second feature map 323 from the second sensing data 321 as shown in FIG. 3 .
  • the second feature map extraction module 220 may use, for example, at least one of a convolutional neural network (CNN) or a gradient-oriented histogram (HOG).
  • CNN convolutional neural network
  • HOG gradient-oriented histogram
  • the processor 180 generates region of interest (RoI) 331 and 333 corresponding to each other in the first feature map 313 and the second feature map 323 , that is, the first region of interest 331 and the second feature map 323 .
  • Two regions of interest 333 may be extracted, respectively.
  • the first region of interest 331 and the second region of interest 333 may have the same size.
  • the region of interest extraction module 230 extracts the first region of interest 331 from the first feature map 313 and the second region of interest from the second feature map 323 .
  • Region 333 may be extracted.
  • the region-of-interest extraction module 230 uses a projection matrix as shown in FIG. 3 or FIG.
  • the ROI extraction module 230 may extract the first ROI 331 irrespective of the first coordinate system of the first sensing data 311 .
  • the region of interest extraction module 230 projects the three-dimensional box 330 to the second coordinate system of the second sensing data 321 by using the projection matrix as shown in FIG. 3 or FIG. 4 .
  • the second region of interest 333 may be extracted from the second patent map 323 .
  • the ROI extraction module 230 may extract the second ROI 333 , regardless of the second coordinate system of the second sensing data 321 .
  • the region of interest extraction module 230 uses a projection matrix as shown in Equation 1 below to convert the three-dimensional box 330 into the first coordinate system of the first sensing data 311 or the second sensing data 321 . ) can be projected into the second coordinate system.
  • the processor 180 may fuse the first region of interest 331 and the second region of interest 333 into one, that is, the third region of interest 340 .
  • the third ROI 340 may be formed to have the same size as the first ROI 331 and the second ROI 333 .
  • the region of interest fusion module 240 may fuse the first region of interest 331 and the second region of interest 333 as shown in FIG. 3 or 4 to form the third region of interest 340 .
  • the region of interest fusion module 240 may use, for example, at least one of a concatenation operation, an addition operation, and a mean operation.
  • the region of interest fusion module 240 gives weights w Mi 531 and 533 to the regions of interest f Mi 331 and 333, respectively, as shown in Equation 2 below, and based on this, Thus, the first region of interest 331 and the second region of interest 333 may be fused. As an example, if the weights w Mi , 531 and 533 are 1, the region of interest fusion module 240 calculates the third region of interest 340 as the sum of the first region of interest 331 and the second region of interest 333 .
  • the region of interest fusion module 240 calculates the average of the first region of interest 331 and the second region of interest 333 to the third region of interest 340 .
  • ) can be created.
  • the region of interest fusion module 240 may include a first weight 531 and a second weight ( 531 ) for the first region of interest 331 and the second region of interest 333 as shown in FIG. 5 .
  • a third ROI 340 may be generated from the first ROI 331 and the second ROI 333 .
  • a first weight 531 and a second weight 533 for the first region of interest 331 and the second region of interest 333 may be calculated, respectively.
  • the region-of-interest fusion module 240 may include, for example, a first region of interest 331 and a second region of interest through at least one of a convolutional neural network (CNN), a multilayer perceptron (MLP), a regression analysis, or a support vector machine (SVM).
  • a first weight 531 and a second weight 533 may be calculated from the merging of the ROI 333 , respectively. For example, if the data state of the first ROI 331 is bad, the first weight 531 may be determined to be low, and if the data state of the first ROI 331 is good, the first weight 531 may be determined to be high. have.
  • the region of interest fusion module 240 multiplies the first region of interest 331 by a first weight 531 to obtain a first weighted region, and a second weight 533 for the second region of interest 333 By multiplying by , a second weighted region may be obtained.
  • the region of interest fusion module 240 divides the sum of the first weighted region and the second weighted region by the sum of the first weight 531 and the second weight 533 to divide the third region of interest 340 by can create
  • the processor 180 may detect the 3D object 350 based on the third ROI 340 .
  • the 3D object detection module 250 may detect the 3D object 350 based on the third ROI 340 as shown in FIG. 3 or 4 .
  • the three-dimensional object detection module 250 is, for example, a convolutional neural network (CNN), a multi-layer perceptron (MLP), a regression analysis (regression), or at least one of a support vector machine (SVM). Available.
  • the 3D object detection module 250 may detect information about the 3D object 350 .
  • the information on the 3D object 350 may include at least one of a probability that the 3D object 350 exists in the third region of interest 340 and a position, size, or direction of the 3D object 350 . .
  • the 3D object detection module 250 may detect a probability that the 3D object 350 exists in the third ROI 340 .
  • the 3D object detection module 250 detects at least one of the position, size, and direction of the 3D object 350 based on the probability that the 3D object 350 exists in the third region of interest 340 . can be detected. For example, when the probability that the 3D object 350 exists in the third region of interest 340 exceeds a predetermined threshold, the 3D object detection module 250 determines the position, size or direction of the 3D object 350 . at least one of them can be detected.
  • the electronic device 100 may output information about the 3D object 350 .
  • the processor 180 outputs the 3D object 350 to the first sensing data 311 , for example, image data, as shown in (a) or (b) of FIG. 6 through the output module 150 .
  • the surrounding 3D cell 650 may be displayed.
  • the position and size of the 3D cell 650 may indicate the position and size of the 3D object 350 , respectively.
  • the processor 180 may transmit information about the 3D object 350 to an external device through the communication module 130 .
  • FIG. 7 is a diagram illustrating a method of operating the electronic device 100 according to various embodiments of the present disclosure.
  • the electronic device 100 may extract a first feature map 313 and a second feature map 323 based on heterogeneous sensing data 311 and 321 .
  • the processor 180 may acquire the first sensing data 311 and the second sensing data 321 .
  • the first sensing data 311 may include image data obtained through the camera module 110 .
  • the first sensing data 311 may have a first resolution and a first coordinate system.
  • the second sensing data 321 may include sensing data acquired through the sensor module 120 .
  • the second sensing data 321 may include point cloud data obtained through at least one of a radar sensor and a lidar sensor.
  • the second sensing data 321 may have a second resolution and a second coordinate system.
  • the processor 180 may extract the first feature map 313 and the second feature map 323 from the first sensing data 311 and the second sensing data 321 , respectively.
  • the first feature map extraction module 210 extracts the first feature map 313 from the first sensing data 311 as shown in FIG. 3
  • the second feature map extraction module 220 may extract the second feature map 323 from the second sensing data 321 as shown in FIG. 3 .
  • the first feature map 313 may have a first resolution and a first coordinate system
  • the second feature map 323 may have a second resolution and a second coordinate system.
  • the first feature map extraction module 210 and the second feature map extraction module 220 use, for example, at least one of a convolutional neural network (CNN) or a gradient-oriented histogram (HOG), the first feature map 313 . and a second feature map 323 may be extracted, respectively.
  • CNN convolutional neural network
  • HOG gradient-oriented histogram
  • the electronic device 100 may extract the first region of interest 331 and the second region of interest 333 from the first feature map 313 and the second feature map 323 , respectively.
  • the processor 180 extracts the first region of interest 331 from the first feature map 313 and extracts the second region of interest 333 from the second feature map 323 .
  • the first region of interest 331 and the second region of interest 333 may have the same size.
  • the region of interest extraction module 230 projects the three-dimensional box 330 to the first coordinate system of the first sensing data 311 by using the projection matrix as shown in FIG. 3 or 4 , so that the first patent The first ROI 331 may be extracted from the map 313 .
  • the ROI extraction module 230 may extract the first ROI 331 irrespective of the first coordinate system of the first sensing data 311 .
  • the region of interest extraction module 230 projects the three-dimensional box 330 to the second coordinate system of the second sensing data 321 by using the projection matrix as shown in FIG. 3 or FIG. 4 .
  • the second region of interest 333 may be extracted from the second patent map 323 .
  • the ROI extraction module 230 may extract the second ROI 333 , regardless of the second coordinate system of the second sensing data 321 .
  • the electronic device 100 may fuse the first ROI 331 and the second ROI 333 in operation 730 .
  • the processor 180 may fuse the first ROI 331 and the second ROI 333 into the third ROI 340 .
  • the third ROI 340 may be formed to have the same size as the first ROI 331 and the second ROI 333 .
  • the ROI fusion module 240 may fuse the first ROI 331 and the second ROI 333 with the third ROI 340 as shown in FIG. 3 or FIG. 4 . can create
  • the region of interest fusion module 240 may use, for example, at least one of a merge operation, a sum operation, and an average operation.
  • the region of interest fusion module 240 applies a first weight 351 and a second weight 353 to the first region of interest 331 and the second region of interest 333, respectively, and Based on this, the first region of interest 331 and the second region of interest 333 may be fused. This will be described later with reference to FIG. 8 .
  • FIG. 8 is a diagram illustrating a fusion operation of the first region of interest and the second region of interest of FIG. 7 .
  • the electronic device 100 may merge a first region of interest 331 and a second region of interest 333 in operation 810 .
  • the electronic device 100 may calculate a first weight 531 for the first region of interest 331 and a second weight 533 for the second region of interest 333 .
  • the processor 180 may calculate a first weight 531 and a second weight 533 from the merging of the first region of interest 331 and the second region of interest 333 , respectively.
  • the region-of-interest fusion module 240 may be configured with the first region of interest 331 through at least one of, for example, a convolutional neural network (CNN), a multilayer perceptron (MLP), a regression analysis, or a support vector machine (SVM).
  • a first weight 531 and a second weight 533 may be calculated from the merging of the second region of interest 333 , respectively. For example, if the data state of the first ROI 331 is bad, the first weight 531 may be determined to be low, and if the data state of the first ROI 331 is good, the first weight 531 may be determined to be high. have. Likewise, if the data state of the second ROI 333 is bad, the second weight 533 may be determined to be low, and if the data state of the second ROI 333 is good, the second weight 533 may be determined to be high. have.
  • CNN convolutional neural network
  • MLP multilayer perceptron
  • SVM support vector machine
  • the electronic device 100 may calculate the sum of the first region of interest 331 multiplied by the first weight 531 and the second region of interest 333 multiplied by the second weight 533 .
  • the processor 180 multiplies the first region of interest 331 by a first weight 531 to obtain a first weighted region, and multiplies the second region of interest 333 by a second weight 533 to obtain a second weight area can be obtained. Then, the processor 180 may calculate the sum of the first weighted region and the second weighted region.
  • the electronic device 100 may calculate an average of the first ROI 331 and the second ROI 333 based on the sum of the first weight 531 and the second weight 533 .
  • the processor 180 may divide the sum of the first weight region and the second weight region into the sum of the first weight 531 and the second weight 533 . Through this, the processor 180 may generate the third ROI 340 . Thereafter, the electronic device 100 returns to FIG. 7 and proceeds to operation 740 .
  • the electronic device 100 detects the 3D object 350 based on the third ROI 340 .
  • the processor 180 may detect the 3D object 350 based on the third ROI 340 as shown in FIG. 3 or 4 .
  • the 3D object detection module 250 may detect information about the 3D object 350 .
  • the 3D object detection module 250 may use, for example, at least one of a convolutional neural network (CNN), a multilayer perceptron (MLP), a regression analysis, or a support vector machine (SVM).
  • the information on the 3D object 350 may include at least one of a probability that the 3D object 350 exists in the third region of interest 340 and a position, size, or direction of the 3D object 350 . .
  • the 3D object detection module 250 may detect a probability that the 3D object 350 exists in the third ROI 340 .
  • the 3D object detection module 250 detects at least one of the position, size, and direction of the 3D object 350 based on the probability that the 3D object 350 exists in the third region of interest 340 . can be detected. For example, when the probability that the 3D object 350 exists in the third region of interest 340 exceeds a predetermined threshold, the 3D object detection module 250 determines the position, size or direction of the 3D object 350 . at least one of them can be detected.
  • the electronic device 100 may output information about the 3D object 350 .
  • the processor 180 outputs the 3D object 350 to the first sensing data 311 , for example, image data, as shown in (a) or (b) of FIG. 6 through the output module 150 .
  • the surrounding 3D cell 650 may be displayed.
  • the position and size of the 3D cell 650 may indicate the position and size of the 3D object 350 , respectively.
  • the processor 180 may transmit information about the 3D object 350 to an external device through the communication module 130 .
  • the electronic device 100 fuses the first region of interest 331 extracted from the first sensing data 311 and the second region of interest 333 extracted from the second sensing data 321 . and the 3D object 350 may be detected based on this. That is, the electronic device 100 does not converge the first sensing data 311 and the second sensing data 321 as a whole, but first interest corresponding to each other in the first sensing data 311 and the second sensing data 321 .
  • the region 331 and the second region of interest 333 may be fused.
  • the limitation of at least one of the first sensing data 311 and the second sensing data 313 may be overcome, and furthermore, in detecting the 3D object 350, improved accuracy can be exhibited even with a low amount of calculation.
  • the first sensing data 311 is obtained from the camera module 110
  • the second sensing data 321 is obtained from the sensor module 120 including at least one of a radar sensor and a lidar sensor.
  • the accuracy and reliability in detecting the 3D object 350 may be improved. Accordingly, since the vehicle including the electronic device 100 can flexibly cope with various situations, reliability and stability of the vehicle may be improved.
  • 9 is a diagram for explaining an operation effect of the electronic device 100 according to various embodiments of the present disclosure.
  • the precision and recall of the electronic device 100 according to various embodiments are superior to those of existing technologies using a single sensor. That is, the electronic device 100 according to various embodiments operates by using the camera module 110 and the sensor module 120 , so that, compared to existing technologies, the method of detecting the 3D object 350 is performed. Accuracy and reliability can be improved.
  • the method of operating the electronic device 100 includes an operation of extracting a first region of interest 331 from a first feature map 313 extracted from first sensing data 311 , and second sensing data An operation of extracting the second region of interest 333 from the second feature map 323 extracted from the 321 , fusing the first region of interest 331 and the second region of interest 333 to the third region of interest 340 ) and detecting the 3D object 350 based on the third ROI 340 .
  • the first sensing data 311 includes image data obtained from a camera module
  • the second sensing data 321 is point cloud data obtained from at least one of a radar sensor and a lidar sensor. may include.
  • the operation of extracting the first region of interest 331 may include projecting the three-dimensional box 330 to the first coordinate system of the first sensing data 311 using a projection matrix, so that the first It may include extracting the first ROI 331 from the feature map 313 .
  • the extracting of the second region of interest 333 may include projecting the 3D box 330 to the second coordinate system of the second sensing data 321 using a projection matrix, thereby performing the second It may include extracting the second ROI 333 from the feature map 323 .
  • the operation of generating the third region of interest 340 may include a first weight 531 and a second weight 533 for the first region of interest 331 and the second region of interest 333 . , and generating a third region of interest 340 from the first region of interest 331 and the second region of interest 333 based on the first weight 531 and the second weight 533 . It can include actions.
  • the operation of generating the third region of interest 340 based on the first weight 531 and the second weight 533 includes the first weight 531 in the first region of interest 331 . ) to obtain a first weighted region, multiplying the second region of interest 333 by a second weight 533 to obtain a second weighted region, and The operation may include generating the third ROI 340 by dividing the sum by the sum of the first weight 531 and the second weight 533 .
  • the operation of calculating the first weight 531 and the second weight 533 may include, for example, at least one of a convolutional neural network, a multilayer perceptron, a regression analysis, or a support vector machine of the first interest.
  • the operation may include calculating a first weight 531 and a second weight 533 from the merging of the region 331 and the second region of interest 333 , respectively.
  • the operation of detecting the 3D object 350 includes the operation of detecting information on the 3D object 350, and the information on the 3D object 350 is the 3D object ( 350) may include at least one of the position, size, or direction.
  • the detecting of the 3D object 350 includes detecting the probability that the 3D object 350 exists in the third region of interest 340 and the 3D object based on the probability. and detecting at least one of a position, a size, and a direction of the 350 , and the information on the 3D object 350 increases the probability that the 3D object 350 exists in the third ROI 340 .
  • the electronic device 100 may include a memory 170 and a processor 180 connected to the memory 170 and configured to execute at least one instruction stored in the memory 170 . .
  • the processor 180 extracts the first region of interest 331 from the first feature map 313 extracted from the first sensing data 311 , and from the second sensing data 321 .
  • a second region of interest 333 is extracted from the extracted second feature map 323 , a third region of interest is generated by fusing the first region of interest 331 and the second region of interest 333 , and a third region of interest is generated.
  • the region 340 it may be configured to detect the 3D object 350 .
  • the electronic device 100 may further include a camera module 110 and a sensor module 120 including at least one of a radar sensor and a lidar sensor.
  • the processor 180 may be configured to obtain the first sensing data 311 through the camera module 110 and obtain the second sensing data through the sensor module 120 . have.
  • the processor 180 projects the 3D box 330 to the first coordinate system of the first sensing data 311 using the projection matrix, thereby generating the first in the first feature map 313 . 1 may be configured to extract a region of interest 331 .
  • the processor 180 projects the 3D box 330 to the second coordinate system of the second sensing data 321 using the projection matrix, thereby 2 may be configured to extract the region of interest 333 .
  • the processor 180 calculates a first weight 531 and a second weight 533 for the first region of interest 331 and the second region of interest 333, respectively, and performs the first Based on the weight 531 and the second weight 533 , the third region of interest 340 may be generated from the first region of interest 331 and the second region of interest 333 .
  • the processor 180 multiplies the first ROI 331 by a first weight 531 to obtain a first weighted region, and assigns the second ROI 331 a second weight ( 533) to obtain a second weighted region, and dividing the sum of the first weighted region and the second weighted region by the sum of the first weighted region 531 and the second weighted region 533, the third region of interest 340 ) can be configured to generate
  • the processor 180 may generate the first region of interest 331 and the second region of interest 333 through at least one of, for example, a convolutional neural network, a multilayer perceptron, a regression analysis, or a support vector machine. may be configured to calculate a first weight 531 and a second weight 533 from the merging, respectively.
  • the processor 180 is configured to detect information about the 3D object 350 , and the information about the 3D object 350 is a position, size, or direction of the 3D object 350 .
  • the processor 180 may include at least one of
  • the processor 180 performs an operation of detecting a probability that the 3D object 350 exists in the third region of interest 340 and a position of the 3D object 350 based on the probability,
  • the method includes detecting at least one of a size or a direction, and the information on the 3D object 350 may further include a probability that the 3D object 350 exists in the third ROI 340 .
  • Various embodiments of the present document are implemented as software including one or more instructions stored in a storage medium (eg, memory 170) readable by a machine (eg, electronic device 100).
  • a storage medium eg, memory 170
  • the processor eg, the processor 180
  • the device may call at least one of the one or more instructions stored from the storage medium and execute it. This enables the device to be operated to perform at least one function according to at least one command called.
  • the one or more instructions may include code generated by a compiler or code executable by an interpreter.
  • the device-readable storage medium may be provided in the form of a non-transitory storage medium.
  • 'non-transitory' only means that the storage medium is a tangible device and does not contain a signal (eg, electromagnetic wave), and this term refers to the case where data is semi-permanently stored in the storage medium and It does not distinguish between temporary storage cases.
  • a signal eg, electromagnetic wave
  • the non-transitory computer-readable storage medium may include an operation of extracting a first region of interest 331 from a first feature map 313 extracted from the first sensing data 311 , and a second sensing operation.
  • One or more programs for executing the operation of generating the 340 and the operation of detecting the 3D object 350 based on the third ROI 340 may be stored.
  • the first sensing data 311 includes image data obtained from a camera module
  • the second sensing data 321 is point cloud data obtained from at least one of a radar sensor and a lidar sensor. may include.
  • an (eg, first) component is referred to as being “(functionally or communicatively) connected” or “connected” to another (eg, second) component, that component is It may be directly connected to the component, or may be connected through another component (eg, a third component).
  • module includes a unit composed of hardware, software, or firmware, and may be used interchangeably with terms such as, for example, logic, logic block, component, or circuit.
  • a module may be an integrally formed part or a minimum unit or a part of one or more functions.
  • the module may be configured as an application-specific integrated circuit (ASIC).
  • ASIC application-specific integrated circuit
  • each component eg, a module or a program of the described components may include a singular or a plurality of entities.
  • one or more components or operations among the above-described corresponding components may be omitted, or one or more other components or operations may be added.
  • a plurality of components eg, a module or a program
  • the integrated component may perform one or more functions of each component of the plurality of components identically or similarly to those performed by the corresponding component among the plurality of components prior to integration.
  • operations performed by a module, program, or other component are executed sequentially, in parallel, repeatedly, or heuristically, or one or more of the operations are executed in a different order, omitted, or , or one or more other operations may be added.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Remote Sensing (AREA)
  • Radar, Positioning & Navigation (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Electromagnetism (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Automation & Control Theory (AREA)
  • Data Mining & Analysis (AREA)
  • Mechanical Engineering (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Transportation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Geometry (AREA)
  • Human Computer Interaction (AREA)
  • Mathematical Physics (AREA)
  • Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Image Analysis (AREA)
  • Traffic Control Systems (AREA)

Abstract

다양한 실시예들에 따른 전자 장치 및 그의 동작 방법은, 카메라 모듈과 레이더 센서 융합 기반 3차원 객체 검출을 위한 것으로, 카메라 모듈을 통해 획득되는 제 1 센싱 데이터로부터 추출되는 제 1 특징 맵에서 제 1 관심 영역을 추출하고, 레이더 센서를 통해 획득되는 제 2 센싱 데이터로부터 추출되는 제 2 특징 맵에서 제 2 관심 영역을 추출하고, 제 1 관심 영역과 제 2 관심 영역을 융합하여 제 3관심 영역을 생성하고, 제 3 관심 영역을 기반으로, 3차원 객체를 검출하도록 구성될 수 있다.

Description

카메라와 레이더 센서 융합 기반 3차원 객체 검출을 위한 전자 장치 및 그의 동작 방법
다양한 실시예들은 카메라와 레이더 센서 융합 기반 3차원 객체 검출을 위한 전자 장치 및 그의 동작 방법에 관한 것이다.
최근, 자율 주행 및 첨단 운전자 지원 시스템(advanced driver assistance systems; ADAS)와 같은 지능형 차량 기술에 대한 연구가 활발히 진행되고 있다. 특히, 주행 중 차량 주변의 장애물 및 환경 인식을 위한 객체 인식 기술의 중요성이 대두되고 있다. 그런데, 단일 센서를 이용한 객체 인식 기술은 센서의 태생적 한계를 극복할 수 없기 때문에 높은 정확도를 기대하기 어려우며, 센서의 고장 등에 대처하기 어려운 문제점이 있다. 이러한 문제점을 극복하기 위해, 이종의 센서들을 이용한 객체 인식 기술이 개발되고 있다. 이종의 센서들을 이용한 객체 인식 기술에 따르면, 객체 인식 기술의 정확도를 높이기 위해, 센서들을 각각 이용하여 검출된 결과들을 비교하여 오류를 제거한다. 그러나, 이는 각 센서의 한계를 극복하는 것에 대해 고려하고 있지 않으므로, 객체 인식 기술의 정확도 향상 폭이 작다.
다양한 실시예들은, 객체 인식 기술의 정확도를 향상시킬 수 있는 전자 장치 및 그의 동작 방법을 제공한다.
다양한 실시예들은, 이종의 센서들을 이용한 객체 인식 기술을 제공할 수 있는 전자 장치 및 그의 동작 방법을 제공한다.
다양한 실시예들은, 각 센서의 한계를 극복하면서, 객체 인식 기술의 정확도를 향상시킬 수 있는 전자 장치 및 그의 동작 방법을 제공한다.
다양한 실시예들은, 카메라 모듈과 레이더 센서 융합 기반 3차원 객체 검출을 위한 전자 장치 및 그의 동작 방법을 제공한다.
다양한 실시예들에 따른 전자 장치의 동작 방법은, 제 1 센싱 데이터로부터 추출되는 제 1 특징 맵에서 제 1 관심 영역을 추출하는 동작, 제 2 센싱 데이터로부터 추출되는 제 2 특징 맵에서 제 2 관심 영역을 추출하는 동작, 상기 제 1 관심 영역과 상기 제 2 관심 영역을 융합하여 제 3관심 영역을 생성하는 동작, 및 상기 제 3 관심 영역을 기반으로, 3차원 객체를 검출하는 동작을 포함할 수 있다.
다양한 실시예들에 따른 전자 장치는, 메모리, 및 상기 메모리와 연결되고, 상기 메모리에 저장된 적어도 하나의 명령을 실행하도록 구성된 프로세서를 포함하고, 상기 프로세서는, 제 1 센싱 데이터로부터 추출되는 제 1 특징 맵에서 제 1 관심 영역을 추출하고, 제 2 센싱 데이터로부터 추출되는 제 2 특징 맵에서 제 2 관심 영역을 추출하고, 상기 제 1 관심 영역과 상기 제 2 관심 영역을 융합하여 제 3관심 영역을 생성하고, 상기 제 3 관심 영역을 기반으로, 3차원 객체를 검출하도록 구성될 수 있다.
다양한 실시예들에 따른 비-일시적(non-transitory) 컴퓨터-판독 가능(computer-readable) 저장(storage) 매체(medium)는, 제 1 센싱 데이터로부터 추출되는 제 1 특징 맵에서 제 1 관심 영역을 추출하는 동작, 제 2 센싱 데이터로부터 추출되는 제 2 특징 맵에서 제 2 관심 영역을 추출하는 동작, 상기 제 1 관심 영역과 상기 제 2 관심 영역을 융합하여 제 3관심 영역을 생성하는 동작, 및 상기 제 3 관심 영역을 기반으로, 3차원 객체를 검출하는 동작을 실행하기 위한 하나 이상의 프로그램들을 저장할 수 있다.
다양한 실시예들에 따르면, 전자 장치는 제 1 센싱 데이터로부터 추출된 제 1 관심 영역과 제 2 센싱 데이터로부터 추출된 제 2 관심 영역을 융합하고, 이를 기반으로 3차원 객체를 검출할 수 있다. 즉 전자 장치는 제 1 센싱 데이터와 제 2 센싱 데이터를 전체적으로 융합하지 않고, 제 1 센싱 데이터와 제 2 센싱 데이터에서 서로 대응하는 제 1 관심 영역과 제 2 관심 영역을 융합할 수 있다. 이를 통해, 제 1 센싱 데이터 또는 제 2 센싱 데이터 중 적어도 어느 하나의 한계가 극복될 수 있으며, 나아가 3차원 객체를 검출하는 데 있어서 낮은 계산량으로도 향상된 정확도를 나타낼 수 있다. 예를 들면, 제 1 센싱 데이터가 카메라 모듈로부터 획득되고, 제 2 센싱 데이터가 레이더 센서 또는 라이다 센서 중 적어도 어느 하나를 포함하는 센서 모듈로부터 획득되는, 카메라 모듈 또는 센서 모듈 중 적어도 어느 하나의 한계를 극복하면서, 3차원 객체를 검출하는 데 있어서의 정확도와 신뢰도가 향상될 수 있다. 이에 따라, 전자 장치를 구비하는 차량이 다양한 상황에 유연하게 대처할 수 있으므로, 차량에 대한 신뢰도 및 안정성이 향상될 수 있다.
도 1은 다양한 실시예들에 따른 전자 장치를 도시하는 도면이다.
도 2는 도 1의 프로세서를 도시하는 도면이다.
도 3, 도 4, 도 5 및 도 6은 다양한 실시예들에 따른 전자 장치의 동작 흐름을 설명하기 위한 도면이다.
도 7은 다양한 실시예들에 따른 전자 장치의 동작 방법을 도시하는 도면이다.
도 8은 도 7의 제 1 관심 영역 및 제 2 관심 영역 융합 동작을 도시하는 도면이다.
도 9는 다양한 실시예들에 따른 전자 장치의 동작 효과를 설명하기 위한 도면들이다.
이하, 본 문서의 다양한 실시예들이 첨부된 도면을 참조하여 설명된다.
도 1은 다양한 실시예들에 따른 전자 장치(100)를 도시하는 도면이다. 도 2는 도 1의 프로세서(180)를 도시하는 도면이다. 도 3, 도 4, 도 5 및 도 6은 다양한 실시예들에 따른 전자 장치(100)의 동작 흐름을 설명하기 위한 도면이다.
도 1을 참조하면, 다양한 실시예들에 따른 전자 장치(100)는 카메라 모듈(110), 센서 모듈(120), 통신 모듈(130), 입력 모듈(140), 출력 모듈(150), 구동 모듈(160), 메모리(170) 또는 프로세서(180) 중 적어도 어느 하나를 포함할 수 있다. 어떤 실시예에서는 전자 장치(100)의 구성 요소들 중 적어도 어느 하나가 생략되거나, 전자 장치(100)에 하나 이상의 다른 구성 요소들이 추가될 수 있다. 일 실시예에 따르면, 전자 장치(100)는 자율 주행 차량일 수 있다. 다른 실시예에 따르면, 전자 장치(100)는 차량에 장착되어, 자율 주행 차량을 구현할 수 있다. 또 다른 실시예에 따르면, 전자 장치(100)는 감시 시스템일 수 있다.
카메라 모듈(110)은 전자 장치(100)의 외부 영상을 촬영할 수 있다. 이 때 카메라 모듈(110)은 전자 장치(100)의 미리 정해진 위치에 설치되어, 외부 영상을 촬영할 수 있다. 그리고 카메라 모듈(110)은 전자 장치(100)의 외부 영상에 대한 영상 데이터를 생성할 수 있다. 예를 들면, 카메라 모듈(110)은 렌즈, 적어도 하나의 이미지 센서, 이미지 시그널 프로세서 또는 플래시 중 적어도 어느 하나를 포함할 수 있다. 일 예로, 카메라 모듈(110)은 RGB 카메라일 수 있다. 다른 예로, 카메라 모듈(110)은 적외선 카메라일 수 있다.
센서 모듈(120)은 전자 장치(100)의 상태 또는 전자 장치(100)의 외부 환경을 감지할 수 있다. 그리고 센서 모듈(120)은 전자 장치(100)의 상태 또는 전자 장치(100)의 외부 환경에 대한 센싱 데이터를 생성할 수 있다. 예를 들면, 센서 모듈(120)은 가속도 센서, 자이로스코프(gyroscope) 센서, 이미지 센서, 레이더(RADAR) 센서, 라이다(LiDAR) 센서 또는 초음파 센서 중 적어도 어느 하나를 포함할 수 있다.
통신 모듈(130)은 전자 장치(100)와 외부 장치(미도시) 간 통신을 지원할 수 있다. 이 때 통신 모듈(130)은 무선 통신 모듈 또는 유선 통신 모듈 중 적어도 어느 하나를 포함할 수 있다. 일 실시예에 따르면, 무선 통신 모듈은 원거리 통신 방식 또는 근거리 통신 방식 중 적어도 어느 하나를 지원할 수 있다. 근거리 통신 방식은, 예컨대 블루투스(Bluetooth), 와이파이 다이렉트(WiFi direct), 또는 적외선 통신(IrDA; infrared data association) 중 적어도 어느 하나를 포함할 수 있다 무선 통신 방식은 네트워크를 통해 원거리 통신 방식으로 통신할 수 있으며, 네트워크는, 예컨대 셀룰러 네트워크, 인터넷, 또는 LAN(local area network)이나 WAN(wide area network)과 같은 컴퓨터 네트워크 중 적어도 어느 하나를 포함할 수 있다. 다른 실시예에 따르면, 무선 통신 모듈은 GNSS(global navigation satellite system)와의 통신을 지원할 수 있다. 일 예로, GNSS는 GPS(global positioning system)를 포함할 수 있다.
입력 모듈(140)은 전자 장치(100)의 구성 요소들 중 적어도 어느 하나에 사용될 명령 또는 데이터를 전자 장치(100)의 외부로부터 수신할 수 있다. 예를 들면, 입력 모듈(140)은 마이크(microphone), 마우스 또는 키보드 중 적어도 어느 하나를 포함할 수 있다. 어떤 실시예에서, 입력 모듈은 터치를 감지하도록 설정된 터치 회로(touch circuitry) 또는 터치에 의해 발생되는 힘의 세기를 측정하도록 설정된 센서 회로 중 적어도 어느 하나를 포함할 수 있다.
출력 모듈(150)은 전자 장치(100)의 외부로 정보를 제공할 수 있다. 이 때 출력 모듈(150)은 표시 모듈 또는 오디오 모듈 중 적어도 어느 하나를 포함할 수 있다. 표시 모듈은 정보를 시각적으로 출력할 수 있다. 예를 들면, 표시 모듈은 디스플레이, 홀로그램 장치, 또는 프로젝터 중 적어도 어느 하나를 포함할 수 있다. 어떤 실시예에서, 표시 모듈은 입력 모듈(140)의 터치 회로 또는 센서 회로 중 적어도 어느 하나와 조립되어, 터치 스크린으로 구현될 수 있다. 오디오 모듈은 정보를 소리로 출력할 수 있다. 예를 들면, 오디오 모듈은 스피커 또는 리시버 중 적어도 어느 하나를 포함할 수 있다.
구동 모듈(160)은 전자 장치(100)의 동작을 위해 구동할 수 있다. 일 실시예에 따르면, 전자 장치(100)가 자율 주행 차량인 경우, 구동 모듈(160)은 각종 부품들을 포함할 수 있다. 다른 실시예에 따르면, 전자 장치(100)가 차량에 장착되어, 자율 주행 차량을 구현하는 경우, 구동 모듈(160)은 차량의 각종 부품들과 연결될 수 있다. 이를 통해, 구동 모듈(160)은 부품들 중 적어도 어느 하나를 제어하면서, 구동할 수 있다. 예를 들면, 부품들은 엔진 모듈, 가속 모듈, 브레이킹 모듈, 조향 모듈 또는 네비게이션 모듈 중 적어도 어느 하나를 포함할 수 있다.
메모리(170)는 전자 장치(100)의 구성 요소들 중 적어도 어느 하나에 의해 사용되는 프로그램 또는 데이터 중 적어도 어느 하나를 저장할 수 있다. 예를 들면, 메모리(170)는 휘발성 메모리 또는 비휘발성 메모리 중 적어도 어느 하나를 포함할 수 있다.
프로세서(180)는 메모리(170)의 프로그램을 실행하여, 전자 장치(100)의 구성 요소들 중 적어도 어느 하나를 제어할 수 있고, 데이터 처리 또는 연산을 수행할 수 있다. 프로세서(180)는 전자 장치(100)의 주변 환경에 대한 정보를 수집할 수 있다. 이 때 프로세서(180)는 제 1 센싱 데이터 및 제 2센싱 데이터를 획득할 수 있다. 프로세서(180)는 전자 장치(100)의 주변 환경에 대한 정보를 기반으로, 전자 장치(100)의 주변 환경에서의 3차원 객체를 인식할 수 있다. 이 때 프로세서(180)는 제 1 센싱 데이터 및 제 2 센싱 데이터를 기반으로, 3차원 객체를 검출할 수 있다. 이를 통해, 프로세서(180)는 전자 장치(100)의 주변 환경에서의 3차원 객체를 기반으로, 전자 장치(100)의 동작을 제어할 수 있다. 이를 위해, 프로세서(180)는 구동 모듈(160)을 제어할 수 있다. 예를 들면, 프로세서(180)는, 도 2에 도시된 바와 같이 제 1 특징 맵 추출 모듈(210), 제 2 특징 맵 추출 모듈(220), 관심 영역 추출 모듈(230), 관심 영역 융합 모듈(240) 및 3차원 객체 검출 모듈(250)을 포함할 수 있다.
프로세서(180)는 제 1 센싱 데이터(311)로부터 제 1 특징 맵(313)을 추출할 수 있다. 제 1 센싱 데이터(311)는 카메라 모듈(110)을 통해 획득되는 영상 데이터를 포함할 수 있다. 이 때 제 1 센싱 데이터(311)는 제 1 해상도 및 제 1 좌표계를 가지며, 제 1 특징 맵(313)도 제 1 해상도 및 제 1 좌표계를 가질 수 있다. 예를 들면, 제 1 특징 맵 추출 모듈(210)은, 도 3에 도시된 바와 같이 제 1 센싱 데이터(311)로부터 제 1 특징 맵(313)을 추출할 수 있다. 제 1 특징 맵 추출 모듈(210)은, 예컨대 콘볼루션 신경망(convolutional neural network; CNN) 또는 경사지향 히스토그램(histograms of oriented gradients; HOG) 중 적어도 어느 하나를 이용할 수 있다.
프로세서(180)는 제 2 센싱 데이터(321)로부터 제 2 특징 맵(323)을 추출할 수 있다. 제 2 센싱 데이터(321)는 센서 모듈(120)을 통해 획득되는 센싱 데이터를 포함할 수 있다. 예를 들면, 제 2 센싱 데이터(321)는 레이더 센서 또는 라이더 센서 중 적어도 어느 하나를 통해 획득되는 포인트 클라우드(point cloud) 데이터를 포함할 수 있다. 이 때 제 2 센싱 데이터(321)는 제 2 해상도 및 제 2 좌표계를 가지며, 제2 특징 맵(323)도 제 2 해상도 및 제 2 좌표계를 가질 수 있다. 예를 들면, 제 2 특징 맵 추출 모듈(220)은, 도 3에 도시된 바와 같이 제 2 센싱 데이터(321)로부터 제 2 특징 맵(323)을 추출할 수 있다. 제 2 특징 맵 추출 모듈(220)은, 예컨대 콘볼루션 신경망(CNN) 또는 경사지향 히스토그램(HOG) 중 적어도 어느 하나를 이용할 수 있다.
프로세서(180)는 제 1 특징 맵(313)과 제 2 특징 맵(323)에서 서로 대응하는 관심 영역(region of interest; RoI)(331, 333)들, 즉 제 1 관심 영역(331)과 제 2 관심 영역(333)을 각각 추출할 수 있다. 여기서, 제 1 관심 영역(331)과 제 2 관심 영역(333)은 동일한 사이즈로 이루어질 수 있다. 예를 들면, 관심 영역 추출 모듈(230)은, 도 3에 도시된 바와 같이 제 1특징 맵(313)에서 제 1 관심 영역(331)을 추출하고, 제 2 특징 맵(323)에서 제 2 관심 영역(333)을 추출할 수 있다. 관심 영역 추출 모듈(230)은, 도 3 또는 도 4에 도시된 바와 같이 투영 행렬(projection matrix)을 이용하여, 3차원 박스(3D box)(330)를 제 1 센싱 데이터(311)의 제 1 좌표계로 투영(projection)함으로써, 제 1 특허 맵(313)에서 제 1 관심 영역(331)을 추출할 수 있다. 이를 통해, 관심 영역 추출 모듈(230)은 제 1 센싱 데이터(311)의 제 1 좌표계와 관계 없이, 제 1 관심 영역(331)을 추출할 수 있다. 이와 마찬가지로, 관심 영역 추출 모듈(230)은, 도 3 또는 도 4에 도시된 바와 같이 투영 행렬을 이용하여, 3차원 박스(330)를 제 2 센싱 데이터(321)의 제 2 좌표계로 투영함으로써, 제 2 특허 맵(323)에서 제 2 관심 영역(333)을 추출할 수 있다. 이를 통해, 관심 영역 추출 모듈(230)은 제 2 센싱 데이터(321)의 제 2 좌표계와 관계 없이, 제 2 관심 영역(333)을 추출할 수 있다. 여기서, 관심 영역 추출 모듈(230)은, 하기 [수학식 1]과 같이 투영 행렬을 이용하여, 3차원 박스(330)를 제 1 센싱 데이터(311)의 제 1 좌표계 또는 제 2 센싱 데이터(321)의 제 2 좌표계로 투영할 수 있다.
Figure PCTKR2021002916-appb-img-000001
프로세서(180)는 제 1 관심 영역(331)과 제 2 관심 영역(333)을 하나, 즉 제 3 관심 영역(340)으로 융합할 수 있다. 여기서, 제 3 관심 영역(340)은 제 1 관심 영역(331) 및 제 2 관심 영역(333)과 동일한 사이즈로 형성될 수 있다. 예를 들면, 관심 영역 융합 모듈(240)은, 도 3 또는 도 4에 도시된 바와 같이 제 1 관심 영역(331)과 제 2 관심 영역(333)을 융합하여, 제 3 관심 영역(340)을 생성할 수 있다. 관심 영역 융합 모듈(240)은, 예컨대 병합(concatenation) 연산, 합(addition) 연산 또는 평균(mean) 연산 중 적어도 어느 하나를 이용할 수 있다. 여기서, 관심 영역 융합 모듈(240)은, 하기 [수학식 2]와 같이 관심 영역(f Mi)(331, 333)들에 대한 가중치(w Mi)(531, 533)들을 각각 부여하고, 이를 기반으로 제 1 관심 영역(331)과 제 2 관심 영역(333)을 융합할 수 있다. 일 예로, 가중치(w Mi)(531, 533)들이 1이면, 관심 영역 융합 모듈(240)은 제 1 관심 영역(331)과 제 2 관심 영역(333)의 합으로 제 3 관심 영역(340)을 생성하고, 가중치(w Mi)(531, 533)들이 0.5이면, 관심 영역 융합 모듈(240)은 제 1 관심 영역(331)과 제 2 관심 영역(333)의 평균으로 제 3 관심 영역(340)을 생성할 수 있다. 다른 예로, 각 관심 영역(f Mi)(331, 333)의 데이터 상태가 좋을수록, 각 가중치가 1에 가깝게 부여되고, 각 관심 영역(f Mi)(331, 333)의 데이터 상태가 나쁠수록, 각 가중치가 0에 가깝게 부여될 수 있다.
Figure PCTKR2021002916-appb-img-000002
일 실시예에 따르면, 관심 영역 융합 모듈(240)은, 도 5에 도시된 바와 같이 제 1 관심 영역(331)과 제 2 관심 영역(333)에 대한 제 1 가중치(531)와 제 2 가중치(533)를 기반으로, 제 1 관심 영역(331)과 제 2 관심 영역(333)으로부터 제 3 관심 영역(340)을 생성할 수 있다. 이를 위해, 제 1 관심 영역(331)과 제 2 관심 영역(333)에 대한 제 1 가중치(531)와 제 2 가중치(533)를 각각 계산할 수 있다. 여기서, 관심 영역 융합 모듈(240)은 예컨대 콘볼루션 신경망(CNN), 다층 퍼셉트론(MLP), 회귀 분석 또는 서포트 벡터 머신(SVM) 중 적어도 어느 하나를 통해, 제 1 관심 영역(331)과 제 2 관심 영역(333)의 병합으로부터 제 1 가중치(531)와 제 2 가중치(533)를 각각 계산할 수 있다. 일 예로, 제 1 관심 영역(331)의 데이터 상태가 나쁘면, 제 1 가중치(531)가 낮게 결정되고, 제 1 관심 영역(331)의 데이터 상태가 좋으면, 제 1 가중치(531)가 높게 결정될 수 있다. 이와 마찬가지로, 제 2 관심 영역(333)의 데이터 상태가 나쁘면, 제 2 가중치(533)가 낮게 결정되고, 제 2 관심 영역(333)의 데이터 상태가 좋으면, 제 2 가중치(533)가 높게 결정될 수 있다. 그리고, 관심 영역 융합 모듈(240)은, 제 1 관심 영역(331)에 제 1 가중치(531)를 곱하여, 제 1 가중 영역을 획득하고, 제 2 관심 영역(333)에 제 2 가중치(533)를 곱하여, 제 2 가중 영역을 획득할 수 있다. 이를 통해, 관심 영역 융합 모듈(240)은 제 1 가중 영역과 제 2 가중 영역의 합을 제 1 가중치(531)와 제 2 가중치(533)의 합으로 나눔으로써, 제 3 관심 영역(340)을 생성할 수 있다.
프로세서(180)는 제 3 관심 영역(340)을 기반으로, 3차원 객체(350)를 검출할 수 있다. 예를 들면, 3 차원 객체 검출 모듈(250)은, 도 3 또는 도 4에 도시된 바와 같이 제 3 관심 영역(340)을 기반으로, 3차원 객체(350)를 검출할 수 있다. 3 차원 객체 검출 모듈(250)은, 예컨대 콘볼루션 신경망(CNN), 다층 퍼셉트론(multi-layer perceptron; MLP), 회귀 분석(regression) 또는 서포트 벡터 머신(support vector machine; SVM) 중 적어도 어느 하나를 이용할 수 있다. 이 때 3차원 객체 검출 모듈(250)은 3차원 객체(350)에 대한 정보를 검출할 수 있다. 3차원 객체(350)에 대한 정보는, 제 3 관심 영역(340)에 3차원 객체(350)가 존재할 확률, 3차원 객체(350)의 위치, 크기 또는 방향 중 적어도 어느 하나를 포함할 수 있다. 여기서, 3차원 객체 검출 모듈(250)은, 제 3 관심 영역(340)에 3차원 객체(350)가 존재할 확률을 검출할 수 있다. 그리고, 3차원 객체 검출 모듈(250)은, 제 3 관심 영역(340)에 3차원 객체(350)가 존재할 확률을 기반으로, 3차원 객체(350)의 위치, 크기 또는 방향 중 적어도 어느 하나를 검출할 수 있다. 일 예로, 제 3 관심 영역(340)에 3차원 객체(350)가 존재할 확률이 미리 정해진 임계값을 초과하면, 3차원 객체 검출 모듈(250)이 3차원 객체(350)의 위치, 크기 또는 방향 중 적어도 어느 하나를 검출할 수 있다.
이를 통해, 전자 장치(100)는 3차원 객체(350)에 대한 정보를 출력할 수 있다. 일 예로, 프로세서(180)는 출력 모듈(150)을 통해, 도 6의 (a) 또는 (b)에 도시된 바와 같이 제 1 센싱 데이터(311), 예컨대 영상 데이터에 3차원 객체(350)를 둘러싸는 3차원 셀(650)을 표시할 수 있다. 여기서, 3차원 셀(650)의 위치와 크기는 3차원 객체(350)의 위치와 크기를 각각 나타낼 수 있다. 다른 예로, 프로세서(180)는 통신 모듈(130)을 통해 3차원 객체(350)에 대한 정보를 외부 장치로 전송할 수 있다.
도 7은 다양한 실시예들에 따른 전자 장치(100)의 동작 방법을 도시하는 도면이다.
도 7을 참조하면, 전자 장치(100)는 710 동작에서 이종의 센싱 데이터(311, 321)를 기반으로, 제 1 특징 맵(313) 및 제 2 특징 맵(323)을 추출할 수 있다. 프로세서(180)는 제 1 센싱 데이터(311)와 제 2 센싱 데이터(321)를 획득할 수 있다. 제 1 센싱 데이터(311)는 카메라 모듈(110)을 통해 획득되는 영상 데이터를 포함할 수 있다. 이 때 제 1 센싱 데이터(311)는 제 1 해상도 및 제 1 좌표계를 가질 수 있다. 제 2 센싱 데이터(321)는 센서 모듈(120)을 통해 획득되는 센싱 데이터를 포함할 수 있다. 예를 들면, 제 2 센싱 데이터(321)는 레이더 센서 또는 라이더 센서 중 적어도 어느 하나를 통해 획득되는 포인트 클라우드(point cloud) 데이터를 포함할 수 있다. 이 때 제 2 센싱 데이터(321)는 제 2 해상도 및 제 2 좌표계를 가질 수 있다. 이 후, 프로세서(180)는 제 1 센싱 데이터(311)와 제 2 센싱 데이터(321)로부터 제 1 특징 맵(313)과 제 2 특징 맵(323)을 각각 추출할 수 있다. 예를 들면, 제 1 특징 맵 추출 모듈(210)은, 도 3에 도시된 바와 같이 제 1 센싱 데이터(311)로부터 제 1 특징 맵(313)을 추출하고, 제 2 특징 맵 추출 모듈(220)은, 도 3에 도시된 바와 같이 제 2 센싱 데이터(321)로부터 제 2 특징 맵(323)을 추출할 수 있다. 이 때 제 1 특징 맵(313)은 제 1 해상도 및 제 1 좌표계를 가지며, 제2 특징 맵(323)은 제 2 해상도 및 제 2 좌표계를 가질 수 있다. 제 1 특징 맵 추출 모듈(210) 및 제 2 특징 맵 추출 모듈(220)은, 예컨대 콘볼루션 신경망(CNN) 또는 경사지향 히스토그램(HOG) 중 적어도 어느 하나를 이용하여, 제 1 특징 맵(313) 및 제 2 특징 맵(323)을 각각 추출할 수 있다.
전자 장치(100)는 720 동작에서 제 1 특징 맵(313)과 제 2 특징 맵(323)에서 제 1 관심 영역(331) 및 제 2 관심 영역(333)을 각각 추출할 수 있다. 프로세서(180)는, 도 3에 도시된 바와 같이 제 1특징 맵(313)에서 제 1 관심 영역(331)을 추출하고, 제 2 특징 맵(323)에서 제 2 관심 영역(333)을 추출할 수 있다. 여기서, 제 1 관심 영역(331)과 제 2 관심 영역(333)은 동일한 사이즈로 이루어질 수 있다. 관심 영역 추출 모듈(230)은, 도 3 또는 도 4에 도시된 바와 같이 투영 행렬을 이용하여, 3차원 박스(330)를 제 1 센싱 데이터(311)의 제 1 좌표계로 투영함으로써, 제 1 특허 맵(313)에서 제 1 관심 영역(331)을 추출할 수 있다. 이를 통해, 관심 영역 추출 모듈(230)은 제 1 센싱 데이터(311)의 제 1 좌표계와 관계 없이, 제 1 관심 영역(331)을 추출할 수 있다. 이와 마찬가지로, 관심 영역 추출 모듈(230)은, 도 3 또는 도 4에 도시된 바와 같이 투영 행렬을 이용하여, 3차원 박스(330)를 제 2 센싱 데이터(321)의 제 2 좌표계로 투영함으로써, 제 2 특허 맵(323)에서 제 2 관심 영역(333)을 추출할 수 있다. 이를 통해, 관심 영역 추출 모듈(230)은 제 2 센싱 데이터(321)의 제 2 좌표계와 관계 없이, 제 2 관심 영역(333)을 추출할 수 있다.
전자 장치(100)는 730 동작에서 제 1 관심 영역(331) 및 제 2 관심 영역(333)을 융합할 수 있다. 프로세서(180)는 제 1 관심 영역(331)과 제 2 관심 영역(333)을 제 3 관심 영역(340)으로 융합할 수 있다. 여기서, 제 3 관심 영역(340)은 제 1 관심 영역(331) 및 제 2 관심 영역(333)과 동일한 사이즈로 형성될 수 있다. 예를 들면, 관심 영역 융합 모듈(240)은, 도 3 또는 도 4에 도시된 바와 같이 제 1 관심 영역(331)과 제 2 관심 영역(333)을 융합하여, 제 3 관심 영역(340)을 생성할 수 있다. 관심 영역 융합 모듈(240)은, 예컨대 병합 연산, 합 연산 또는 평균 연산 중 적어도 어느 하나를 이용할 수 있다. 일 실시예에 따르면, 관심 영역 융합 모듈(240)은, 제 1 관심 영역(331)과 제 2 관심 영역(333)에 제 1 가중치(351)와 제 2 가중치(353)를 각각 부여하고, 이를 기반으로 제 1 관심 영역(331)과 제 2 관심 영역(333)을 융합할 수 있다. 이에 대해, 도 8을 참조하여, 후술될 것이다.
도 8은 도 7의 제 1 관심 영역 및 제 2 관심 영역 융합 동작을 도시하는 도면이다.
도 8을 참조하면, 전자 장치(100)는 810 동작에서 제 1 관심 영역(331) 및 제 2 관심 영역(333)을 병합할 수 있다. 그리고, 전자 장치(100)는 820 동작에서 제 1 관심 영역(331)에 대한 제 1 가중치(531) 및 제 2 관심 영역(333)에 대한 제 2 가중치(533)를 계산할 수 있다. 프로세서(180)는 제 1 관심 영역(331)과 제 2 관심 영역(333)의 병합으로부터 제 1 가중치(531)와 제 2 가중치(533)를 각각 계산할 수 있다. 예를 들면, 관심 영역 융합 모듈(240)은 예컨대 콘볼루션 신경망(CNN), 다층 퍼셉트론(MLP), 회귀 분석 또는 서포트 벡터 머신(SVM) 중 적어도 어느 하나를 통해, 제 1 관심 영역(331)과 제 2 관심 영역(333)의 병합으로부터 제 1 가중치(531)와 제 2 가중치(533)를 각각 계산할 수 있다. 일 예로, 제 1 관심 영역(331)의 데이터 상태가 나쁘면, 제 1 가중치(531)가 낮게 결정되고, 제 1 관심 영역(331)의 데이터 상태가 좋으면, 제 1 가중치(531)가 높게 결정될 수 있다. 이와 마찬가지로, 제 2 관심 영역(333)의 데이터 상태가 나쁘면, 제 2 가중치(533)가 낮게 결정되고, 제 2 관심 영역(333)의 데이터 상태가 좋으면, 제 2 가중치(533)가 높게 결정될 수 있다.
전자 장치(100)는, 830 동작에서 제 1 가중치(531)가 곱해진 제 1 관심 영역(331)과 제 2 가중치(533)가 곱해진 제 2 관심 영역(333)의 합을 계산할 수 있다. 프로세서(180)는 제 1 관심 영역(331)에 제 1 가중치(531)를 곱하여, 제 1 가중 영역을 획득하고, 제 2 관심 영역(333)에 제 2 가중치(533)를 곱하여, 제 2 가중 영역을 획득할 수 있다. 그리고, 프로세서(180)는 제 1 가중 영역과 제 2가중 영역의 합을 계산할 수 있다.
전자 장치(100)는 840 동작에서 제 1 가중치(531)와 제 2 가중치(533)의 합을 기반으로, 제 1 관심 영역(331)과 제 2 관심 영역(333)의 평균을 계산할 수 있다. 프로세서(180)는 제 1 가중 영역과 제 2 가중 영역의 합을 제 1 가중치(531)와 제 2 가중치(533)의 합으로 나눌 수 있다. 이를 통해, 프로세서(180)는 제 3 관심 영역(340)을 생성할 수 있다. 이 후, 전자 장치(100)는 도 7로 리턴하여, 740 동작으로 진행할 수 있다.
다시 도 7을 참조하면, 전자 장치(100)는 740 동작에서 제 3 관심 영역(340)을 기반으로, 3차원 객체(350)를 검출할 수 있다. 프로세서(180)는, 도 3 또는 도 4에 도시된 바와 같이 제 3 관심 영역(340)을 기반으로, 3차원 객체(350)를 검출할 수 있다. 이 때 3차원 객체 검출 모듈(250)은 3차원 객체(350)에 대한 정보를 검출할 수 있다. 3 차원 객체 검출 모듈(250)은, 예컨대 콘볼루션 신경망(CNN), 다층 퍼셉트론(MLP), 회귀 분석 또는 서포트 벡터 머신(SVM) 중 적어도 어느 하나를 이용할 수 있다. 3차원 객체(350)에 대한 정보는, 제 3 관심 영역(340)에 3차원 객체(350)가 존재할 확률, 3차원 객체(350)의 위치, 크기 또는 방향 중 적어도 어느 하나를 포함할 수 있다. 여기서, 3차원 객체 검출 모듈(250)은, 제 3 관심 영역(340)에 3차원 객체(350)가 존재할 확률을 검출할 수 있다. 그리고, 3차원 객체 검출 모듈(250)은, 제 3 관심 영역(340)에 3차원 객체(350)가 존재할 확률을 기반으로, 3차원 객체(350)의 위치, 크기 또는 방향 중 적어도 어느 하나를 검출할 수 있다. 일 예로, 제 3 관심 영역(340)에 3차원 객체(350)가 존재할 확률이 미리 정해진 임계값을 초과하면, 3차원 객체 검출 모듈(250)이 3차원 객체(350)의 위치, 크기 또는 방향 중 적어도 어느 하나를 검출할 수 있다.
이를 통해, 전자 장치(100)는 3차원 객체(350)에 대한 정보를 출력할 수 있다. 일 예로, 프로세서(180)는 출력 모듈(150)을 통해, 도 6의 (a) 또는 (b)에 도시된 바와 같이 제 1 센싱 데이터(311), 예컨대 영상 데이터에 3차원 객체(350)를 둘러싸는 3차원 셀(650)을 표시할 수 있다. 여기서, 3차원 셀(650)의 위치와 크기는 3차원 객체(350)의 위치와 크기를 각각 나타낼 수 있다. 다른 예로, 프로세서(180)는 통신 모듈(130)을 통해 3차원 객체(350)에 대한 정보를 외부 장치로 전송할 수 있다.
다양한 실시예들에 따르면, 전자 장치(100)는 제 1 센싱 데이터(311) 로부터 추출된 제 1 관심 영역(331)과 제 2 센싱 데이터(321)로부터 추출된 제 2 관심 영역(333)을 융합하고, 이를 기반으로 3차원 객체(350)를 검출할 수 있다. 즉 전자 장치(100)는 제 1 센싱 데이터(311)와 제 2 센싱 데이터(321)를 전체적으로 융합하지 않고, 제 1 센싱 데이터(311)와 제 2 센싱 데이터(321)에서 서로 대응하는 제 1 관심 영역(331)과 제 2 관심 영역(333)을 융합할 수 있다. 이를 통해, 제 1 센싱 데이터(311) 또는 제 2 센싱 데이터(313) 중 적어도 어느 하나의 한계가 극복될 수 있으며, 나아가 3차원 객체(350)를 검출하는 데 있어서 낮은 계산량으로도 향상된 정확도를 나타낼 수 있다. 예를 들면, 제 1 센싱 데이터(311)가 카메라 모듈(110)로부터 획득되고, 제 2 센싱 데이터(321)가 레이더 센서 또는 라이다 센서 중 적어도 어느 하나를 포함하는 센서 모듈(120)로부터 획득되는, 카메라 모듈(110) 또는 센서 모듈(120) 중 적어도 어느 하나의 한계를 극복하면서, 3차원 객체(350)를 검출하는 데 있어서의 정확도와 신뢰도가 향상될 수 있다. 이에 따라, 전자 장치(100)를 구비하는 차량이 다양한 상황에 유연하게 대처할 수 있으므로, 차량에 대한 신뢰도 및 안정성이 향상될 수 있다. 도 9는 다양한 실시예들에 따른 전자 장치(100)의 동작 효과를 설명하기 위한 도면들이다.
도 9를 참조하면, 다양한 실시예들에 따른 전자 장치(100)의 정밀도 및 재현율은, 기존 단일 센서를 사용하는 기술들의 정밀도 및 재현율과 비교하여 우수하다. 즉 다양한 실시예들에 따른 전자 장치(100)는 카메라 모듈(110)과 센서 모듈(120)을 이용하여 동작함으로써, 기존의 기술들과 비교하여, 3차원 객체(350)를 검출하는 데 있어서의 정확도와 신뢰도가 향상될 수 있다.
다양한 실시예들에 따른 전자 장치(100)의 동작 방법은, 제 1 센싱 데이터(311)로부터 추출되는 제 1 특징 맵(313)에서 제 1 관심 영역(331)을 추출하는 동작, 제 2 센싱 데이터(321)로부터 추출되는 제 2 특징 맵(323)에서 제 2 관심 영역(333)을 추출하는 동작, 제 1 관심 영역(331)과 제 2 관심 영역(333)을 융합하여 제 3 관심 영역(340)을 생성하는 동작, 및 제 3 관심 영역(340)을 기반으로, 3차원 객체(350)를 검출하는 동작을 포함할 수 있다.
다양한 실시예들에 따르면, 제 1 센싱 데이터(311)는 카메라 모듈로부터 획득되는 영상 데이터를 포함하고, 제 2 센싱 데이터(321)는 레이더 센서 또는 라이다 센서 중 적어도 어느 하나로부터 획득되는 포인트 클라우드 데이터를 포함할 수 있다.
다양한 실시예들에 따르면, 제 1 관심 영역(331)을 추출하는 동작은, 투영 행렬을 이용하여, 3차원 박스(330)를 제 1 센싱 데이터(311)의 제 1 좌표계로 투영함으로써, 제 1 특징 맵(313)에서 제 1 관심 영역(331)을 추출하는 동작을 포함할 수 있다.
다양한 실시예들에 따르면, 제 2 관심 영역(333)을 추출하는 동작은, 투영 행렬을 이용하여, 3차원 박스(330)를 제 2 센싱 데이터(321)의 제 2좌표계로 투영함으로써, 제 2 특징 맵(323)에서 제 2 관심 영역(333)을 추출하는 동작을 포함할 수 있다.
다양한 실시예들에 따르면, 제 3 관심 영역(340)을 생성하는 동작은, 제 1 관심 영역(331)과 제 2 관심 영역(333)에 대한 제 1 가중치(531)와 제 2 가중치(533)를 각각 계산하는 동작, 및 제 1 가중치(531)와 제 2 가중치(533)를 기반으로, 제 1 관심 영역(331)과 제 2 관심 영역(333)으로부터 제 3 관심 영역(340)을 생성하는 동작을 포함할 수 있다.
다양한 실시예들에 따르면, 제 1 가중치(531)와 제 2 가중치(533)를 기반으로, 제 3 관심 영역(340)을 생성하는 동작은, 제 1 관심 영역(331)에 제 1 가중치(531)를 곱하여, 제 1 가중 영역을 획득하는 동작, 제 2 관심 영역(333)에 제 2 가중치(533)를 곱하여, 제 2가중 영역을 획득하는 동작, 및 제 1 가중 영역과 제 2 가중 영역의 합을 제 1 가중치(531)와 제 2 가중치(533)의 합으로 나눔으로써, 제 3 관심 영역(340)을 생성하는 동작을 포함할 수 있다.
다양한 실시예들에 따르면, 제 1 가중치(531)와 제 2 가중치(533)를 계산하는 동작은, 예컨대 콘볼루션 신경망, 다층 퍼셉트론, 회귀 분석 또는 서포트 벡터 머신 중 적어도 어느 하나를 통해, 제 1 관심 영역(331)과 제 2 관심 영역(333)의 병합으로부터 제 1 가중치(531)와 제 2 가중치(533)를 각각 계산하는 동작을 포함할 수 있다.
다양한 실시예들에 따르면, 3차원 객체(350)를 검출하는 동작은, 3차원 객체(350)에 대한 정보를 검출하는 동작을 포함하고, 3차원 객체(350)에 대한 정보는 3차원 객체(350)의 위치, 크기 또는 방향 중 적어도 어느 하나를 포함할 수 있다.
다양한 실시예들에 따르면, 3차원 객체(350)를 검출하는 동작은, 제 3 관심 영역(340)에 3차원 객체(350)가 존재할 확률을 검출하는 동작, 및 확률을 기반으로, 3차원 객체(350)의 위치, 크기 또는 방향 중 적어도 어느 하나를 검출하는 동작을 포함하고, 3차원 객체(350)에 대한 정보는 제 3 관심 영역(340)에 3차원 객체(350)가 존재할 확률을 더 포함할 수 있다.
다양한 실시예들에 따른 전자 장치(100)는, 메모리(170), 및 메모리(170)와 연결되고, 메모리(170)에 저장된 적어도 하나의 명령을 실행하도록 구성된 프로세서(180)를 포함할 수 있다.
다양한 실시예들에 따르면, 프로세서(180)는, 제 1 센싱 데이터(311)로부터 추출되는 제 1 특징 맵(313)에서 제 1 관심 영역(331)을 추출하고, 제 2 센싱 데이터(321)로부터 추출되는 제 2 특징 맵(323)에서 제 2 관심 영역(333)을 추출하고, 제 1 관심 영역(331)과 제 2 관심 영역(333)을 융합하여 제 3관심 영역을 생성하고, 제 3 관심 영역(340)을 기반으로, 3차원 객체(350)를 검출하도록 구성될 수 있다.
다양한 실시예들에 따르면, 전자 장치(100)는, 카메라 모듈(110), 및 레이더 센서 또는 라이다 센서 중 적어도 어느 하나를 포함하는 센서 모듈(120)을 더 포함할 수 있다.
다양한 실시예들에 따르면, 프로세서(180)는, 카메라 모듈(110)을 통해, 제 1 센싱 데이터(311)를 획득하고, 센서 모듈(120)을 통해, 제2 센싱 데이터를 획득하도록 구성될 수 있다.
다양한 실시예들에 따르면, 프로세서(180)는, 투영 행렬을 이용하여, 3차원 박스(330)를 제 1 센싱 데이터(311)의 제 1 좌표계로 투영함으로써, 제 1 특징 맵(313)에서 제 1 관심 영역(331)을 추출하도록 구성될 수 있다.
다양한 실시예들에 따르면, 프로세서(180)는, 투영 행렬을 이용하여, 3차원 박스(330)를 제 2 센싱 데이터(321)의 제 2좌표계로 투영함으로써, 제 2 특징 맵(323)에서 제 2 관심 영역(333)을 추출하도록 구성될 수 있다.
다양한 실시예들에 따르면, 프로세서(180)는, 제 1 관심 영역(331)과 제 2 관심 영역(333)에 대한 제 1 가중치(531)와 제 2 가중치(533)를 각각 계산하고, 제 1 가중치(531)와 제 2 가중치(533)를 기반으로, 제 1 관심 영역(331)과 제 2 관심 영역(333)으로부터 제 3 관심 영역(340)을 생성하도록 구성될 수 있다.
다양한 실시예들에 따르면, 프로세서(180)는, 제 1 관심 영역(331)에 제 1 가중치(531)를 곱하여, 제 1 가중 영역을 획득하고, 제 2 관심 영역(333)에 제 2 가중치(533)를 곱하여, 제 2가중 영역을 획득하고, 제 1 가중 영역과 제 2 가중 영역의 합을 제 1 가중치(531)와 제 2 가중치(533)의 합으로 나눔으로써, 제 3 관심 영역(340)을 생성하도록 구성될 수 있다.
다양한 실시예들에 따르면, 프로세서(180)는, 예컨대 콘볼루션 신경망, 다층 퍼셉트론, 회귀 분석 또는 서포트 벡터 머신 중 적어도 어느 하나를 통해, 제 1 관심 영역(331)과 제 2 관심 영역(333)의 병합으로부터 제 1 가중치(531)와 제 2 가중치(533)를 각각 계산하도록 구성될 수 있다.
다양한 실시예들에 따르면, 프로세서(180)는, 3차원 객체(350)에 대한 정보를 검출하도록 구성되고, 3차원 객체(350)에 대한 정보는 3차원 객체(350)의 위치, 크기 또는 방향 중 적어도 어느 하나를 포함할 수 있다.
다양한 실시예들에 따르면, 프로세서(180)는, 제 3 관심 영역(340)에 3차원 객체(350)가 존재할 확률을 검출하는 동작, 및 확률을 기반으로, 3차원 객체(350)의 위치, 크기 또는 방향 중 적어도 어느 하나를 검출하는 동작을 포함하고, 3차원 객체(350)에 대한 정보는 제 3 관심 영역(340)에 3차원 객체(350)가 존재할 확률을 더 포함할 수 있다.
본 문서의 다양한 실시예들은 기기(machine)(예: 전자 장치(100))에 의해 읽을 수 있는 저장 매체(storage medium)(예: 메모리(170))에 저장된 하나 이상의 명령어들을 포함하는 소프트웨어로서 구현될 수 있다. 예를 들면, 기기의 프로세서(예: 프로세서(180))는, 저장 매체로부터 저장된 하나 이상의 명령어들 중 적어도 하나의 명령을 호출하고, 그것을 실행할 수 있다. 이것은 기기가 호출된 적어도 하나의 명령어에 따라 적어도 하나의 기능을 수행하도록 운영되는 것을 가능하게 한다. 하나 이상의 명령어들은 컴파일러에 의해 생성된 코드 또는 인터프리터에 의해 실행될 수 있는 코드를 포함할 수 있다. 기기로 읽을 수 있는 저장매체는, 비일시적(non-transitory) 저장 매체의 형태로 제공될 수 있다. 여기서, ‘비일시적’은 저장 매체가 실재(tangible)하는 장치이고, 신호(signal)(예: 전자기파)를 포함하지 않는다는 것을 의미할 뿐이며, 이 용어는 데이터가 저장 매체에 반영구적으로 저장되는 경우와 임시적으로 저장되는 경우를 구분하지 않는다.
다양한 실시예들에 따른 비-일시적 컴퓨터-판독 가능 저장 매체는, 제 1 센싱 데이터(311)로부터 추출되는 제 1 특징 맵(313)에서 제 1 관심 영역(331)을 추출하는 동작, 제 2 센싱 데이터(321)로부터 추출되는 제 2 특징 맵(323)에서 제 2 관심 영역(333)을 추출하는 동작, 제 1 관심 영역(331)과 제 2 관심 영역(333)을 융합하여 제 3 관심 영역(340)을 생성하는 동작, 및 제 3 관심 영역(340)을 기반으로, 3차원 객체(350)를 검출하는 동작을 실행하기 위한 하나 이상의 프로그램들을 저장할 수 있다.
다양한 실시예들에 따르면, 제 1 센싱 데이터(311)는 카메라 모듈로부터 획득되는 영상 데이터를 포함하고, 제 2 센싱 데이터(321)는 레이더 센서 또는 라이다 센서 중 적어도 어느 하나로부터 획득되는 포인트 클라우드 데이터를 포함할 수 있다.
본 문서의 다양한 실시예들 및 이에 사용된 용어들은 본 문서에 기재된 기술을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 해당 실시 예의 다양한 변경, 균등물, 및/또는 대체물을 포함하는 것으로 이해되어야 한다. 도면의 설명과 관련하여, 유사한 구성 요소에 대해서는 유사한 참조 부호가 사용될 수 있다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함할 수 있다. 본 문서에서, "A 또는 B", "A 및/또는 B 중 적어도 하나", "A, B 또는 C" 또는 "A, B 및/또는 C 중 적어도 하나" 등의 표현은 함께 나열된 항목들의 모든 가능한 조합을 포함할 수 있다. "제 1", "제 2", "첫째" 또는 "둘째" 등의 표현들은 해당 구성 요소들을, 순서 또는 중요도에 상관없이 수식할 수 있고, 한 구성 요소를 다른 구성 요소와 구분하기 위해 사용될 뿐 해당 구성 요소들을 한정하지 않는다. 어떤(예: 제 1) 구성 요소가 다른(예: 제 2) 구성 요소에 "(기능적으로 또는 통신적으로) 연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 상기 어떤 구성 요소가 상기 다른 구성 요소에 직접적으로 연결되거나, 다른 구성 요소(예: 제 3 구성 요소)를 통하여 연결될 수 있다.
본 문서에서 사용된 용어 "모듈"은 하드웨어, 소프트웨어 또는 펌웨어로 구성된 유닛을 포함하며, 예를 들면, 로직, 논리 블록, 부품, 또는 회로 등의 용어와 상호 호환적으로 사용될 수 있다. 모듈은, 일체로 구성된 부품 또는 하나 또는 그 이상의 기능을 수행하는 최소 단위 또는 그 일부가 될 수 있다. 예를 들면, 모듈은 ASIC(application-specific integrated circuit)으로 구성될 수 있다.
다양한 실시예들에 따르면, 기술한 구성 요소들의 각각의 구성 요소(예: 모듈 또는 프로그램)는 단수 또는 복수의 개체를 포함할 수 있다. 다양한 실시예들에 따르면, 전술한 해당 구성 요소들 중 하나 이상의 구성 요소들 또는 동작들이 생략되거나, 또는 하나 이상의 다른 구성 요소들 또는 동작들이 추가될 수 있다. 대체적으로 또는 추가적으로, 복수의 구성 요소들(예: 모듈 또는 프로그램)은 하나의 구성 요소로 통합될 수 있다. 이런 경우, 통합된 구성 요소는 복수의 구성 요소들 각각의 구성 요소의 하나 이상의 기능들을 통합 이전에 복수의 구성 요소들 중 해당 구성 요소에 의해 수행되는 것과 동일 또는 유사하게 수행할 수 있다. 다양한 실시예들에 따르면, 모듈, 프로그램 또는 다른 구성 요소에 의해 수행되는 동작들은 순차적으로, 병렬적으로, 반복적으로, 또는 휴리스틱하게 실행되거나, 동작들 중 하나 이상이 다른 순서로 실행되거나, 생략되거나, 또는 하나 이상의 다른 동작들이 추가될 수 있다.

Claims (15)

  1. 전자 장치의 동작 방법에 있어서,
    제 1 센싱 데이터로부터 추출되는 제 1 특징 맵에서 제 1 관심 영역을 추출하는 동작;
    제 2 센싱 데이터로부터 추출되는 제 2 특징 맵에서 상기 제 1 관심 영역에 대응하는 제 2 관심 영역을 추출하는 동작;
    상기 제 1 관심 영역과 상기 제 2 관심 영역을 융합하여 제 3 관심 영역을 생성하는 동작; 및
    상기 제 3 관심 영역을 기반으로, 3차원 객체를 검출하는 동작을 포함하는 방법.
  2. 제 1 항에 있어서,
    상기 제 1 센싱 데이터는 카메라 모듈로부터 획득되는 영상 데이터를 포함하고,
    상기 제 2 센싱 데이터는 레이더 센서 또는 라이다 센서 중 적어도 어느 하나로부터 획득되는 포인트 클라우드 데이터를 포함하고,
    상기 제 1 관심 영역을 추출하는 동작은,
    투영 행렬(projection matrix)을 이용하여, 미리 정해진 사이즈의 3차원 박스를 상기 제 1 센싱 데이터의 제 1 좌표계로 투영함으로써, 상기 제 1 특징 맵에서 상기 3차원 박스에 대응하여 상기 제 1 관심 영역을 추출하는 동작을 포함하고,
    상기 제 2 관심 영역을 추출하는 동작은,
    상기 투영 행렬을 이용하여, 상기 3차원 박스를 상기 제 2 센싱 데이터의 제 2 좌표계로 투영함으로써, 상기 제 2 특징 맵에서 상기 3차원 박스에 대응하여 상기 제 2 관심 영역을 추출하는 동작을 포함하는 방법.
  3. 제 2 항에 있어서,
    상기 제 3 관심 영역을 생성하는 동작은,
    상기 제 1 관심 영역과 상기 제 2 관심 영역에 대한 제 1 가중치와 제 2 가중치를 각각 계산하는 동작; 및
    상기 제 1 가중치와 상기 제 2 가중치를 기반으로, 상기 제 1 관심 영역과 상기 제 2 관심 영역으로부터 상기 제 3 관심 영역을 생성하는 동작을 포함하는 방법.
  4. 제 3 항에 있어서,
    상기 제 1 가중치와 상기 제 2 가중치를 기반으로, 상기 제 3 관심 영역을 생성하는 동작은,
    상기 제 1 관심 영역에 상기 제 1 가중치를 곱하여, 제 1 가중 영역을 획득하는 동작;
    상기 제 2 관심 영역에 상기 제 2 가중치를 곱하여, 제 2 가중 영역을 획득하는 동작; 및
    상기 제 1 가중 영역과 상기 제 2 가중 영역의 합을 상기 제 1 가중치와 상기 제 2 가중치의 합으로 나눔으로써, 상기 제 3 관심 영역을 생성하는 동작을 포함하는 방법.
  5. 제 3 항에 있어서,
    상기 제 1 가중치와 상기 제 2 가중치를 계산하는 동작은,
    상기 제 1 관심 영역과 상기 제 2 관심 영역의 병합으로부터 상기 제 1 가중치와 상기 제 2 가중치를 각각 계산하는 동작을 포함하는 방법.
  6. 제 2 항에 있어서,
    상기 3차원 객체를 검출하는 동작은,
    상기 3차원 객체에 대한 정보를 검출하는 동작을 포함하고,
    상기 정보는 상기 3차원 객체의 위치, 크기 또는 방향 중 적어도 어느 하나를 포함하는 방법.
  7. 제 6 항에 있어서,
    상기 3차원 객체를 검출하는 동작은,
    상기 제 3 관심 영역에 상기 3차원 객체가 존재할 확률을 검출하는 동작; 및
    상기 확률을 기반으로, 상기 3차원 객체의 상기 위치, 크기 또는 방향 중 적어도 어느 하나를 검출하는 동작을 포함하고,
    상기 정보는 상기 확률을 더 포함하는 방법.
  8. 전자 장치에 있어서,
    메모리; 및
    상기 메모리와 연결되고, 상기 메모리에 저장된 적어도 하나의 명령을 실행하도록 구성된 프로세서를 포함하고,
    상기 프로세서는,
    제 1 센싱 데이터로부터 추출되는 제 1 특징 맵에서 제 1 관심 영역을 추출하고,
    제 2 센싱 데이터로부터 추출되는 제 2 특징 맵에서 상기 제 1 관심 영역에 대응하는 제 2 관심 영역을 추출하고,
    상기 제 1 관심 영역과 상기 제 2 관심 영역을 융합하여 제 3 관심 영역을 생성하고,
    상기 제 3 관심 영역을 기반으로, 3차원 객체를 검출하도록 구성되는 장치.
  9. 제 8 항에 있어서,
    상기 전자 장치는,
    카메라 모듈; 및
    레이더 센서 또는 라이다 센서 중 적어도 어느 하나를 포함하는 센서 모듈을 더 포함하고,
    상기 프로세서는,
    상기 카메라 모듈을 통해, 상기 제 1 센싱 데이터를 획득하고,
    상기 센서 모듈을 통해, 상기 제 2 센싱 데이터를 획득하도록 구성되고,
    상기 프로세서는,
    투영 행렬을 이용하여, 미리 정해진 사이즈의 3차원 박스를 상기 제 1 센싱 데이터의 제 1 좌표계로 투영함으로써, 상기 제 1 특징 맵에서 상기 3차원 박스에 대응하여 상기 제 1 관심 영역을 추출하도록 구성되고,
    상기 투영 행렬을 이용하여, 상기 3차원 박스를 상기 제 2 센싱 데이터의 제 2 좌표계로 투영함으로써, 상기 제 2 특징 맵에서 상기 3차원 박스에 대응하여 상기 제 2 관심 영역을 추출하도록 구성되는 장치.
  10. 제 9 항에 있어서,
    상기 프로세서는,
    상기 제 1 관심 영역과 상기 제 2 관심 영역에 대한 제 1 가중치와 제 2 가중치를 각각 계산하고,
    상기 제 1 가중치와 상기 제 2 가중치를 기반으로, 상기 제 1 관심 영역과 상기 제 2 관심 영역으로부터 상기 제 3 관심 영역을 생성하도록 구성되는 장치.
  11. 제 10 항에 있어서,
    상기 프로세서는,
    상기 제 1 관심 영역에 상기 제 1 가중치를 곱하여, 제 1 가중 영역을 획득하고,
    상기 제 2 관심 영역에 상기 제 2 가중치를 곱하여, 제 2가중 영역을 획득하고,
    상기 제 1 가중 영역과 상기 제 2 가중 영역의 합을 상기 제 1 가중치와 상기 제 2 가중치의 합으로 나눔으로써, 상기 제 3 관심 영역을 생성하도록 구성되는 장치.
  12. 제 10 항에 있어서,
    상기 프로세서는,
    상기 제 1 관심 영역과 상기 제 2 관심 영역의 병합으로부터 상기 제 1 가중치와 상기 제 2 가중치를 각각 계산하도록 구성되는 장치.
  13. 제 9 항에 있어서,
    상기 프로세서는,
    상기 3차원 객체에 대한 정보를 검출하도록 구성되고,
    상기 정보는 상기 3차원 객체의 위치, 크기 또는 방향 중 적어도 어느 하나를 포함하는 장치.
  14. 제 13 항에 있어서,
    상기 프로세서는,
    상기 제 3 관심 영역에 상기 3차원 객체가 존재할 확률을 검출하는 동작; 및
    상기 확률을 기반으로, 상기 3차원 객체의 상기 위치, 크기 또는 방향 중 적어도 어느 하나를 검출하는 동작을 포함하고,
    상기 정보는 상기 확률을 더 포함하는 장치.
  15. 비-일시적(non-transitory) 컴퓨터-판독 가능(computer-readable) 저장(storage) 매체(medium)에 있어서,
    제 1 센싱 데이터로부터 추출되는 제 1 특징 맵에서 제 1 관심 영역을 추출하는 동작;
    제 2 센싱 데이터로부터 추출되는 제 2 특징 맵에서 상기 제 1 관심 영역에 대응하는 제 2 관심 영역을 추출하는 동작;
    상기 제 1 관심 영역과 상기 제 2 관심 영역을 융합하여 제 3 관심 영역을 생성하는 동작; 및
    상기 제 3 관심 영역을 기반으로, 3차원 객체를 검출하는 동작을 실행하기 위한 하나 이상의 프로그램들을 저장하고,
    상기 제 1 센싱 데이터는 카메라 모듈로부터 획득되는 영상 데이터를 포함하고,
    상기 제 2 센싱 데이터는 레이더 센서 또는 라이다 센서 중 적어도 어느 하나로부터 획득되는 포인트 클라우드 데이터를 포함하고,
    상기 제 1 관심 영역을 추출하는 동작은,
    투영 행렬을 이용하여, 미리 정해진 사이즈의 3차원 박스를 상기 제 1 센싱 데이터의 제 1 좌표계로 투영함으로써, 상기 제 1 특징 맵에서 상기 3차원 박스에 대응하여 상기 제 1 관심 영역을 추출하는 동작을 포함하고,
    상기 제 2 관심 영역을 추출하는 동작은,
    상기 투영 행렬을 이용하여, 상기 3차원 박스를 상기 제 2 센싱 데이터의 제 2 좌표계로 투영함으로써, 상기 제 2 특징 맵에서 상기 3차원 박스에 대응하여 상기 제 2 관심 영역을 추출하는 동작을 포함하는 저장 매체.
PCT/KR2021/002916 2020-03-17 2021-03-09 카메라와 레이더 센서 융합 기반 3차원 객체 검출을 위한 전자 장치 및 그의 동작 방법 WO2021187793A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2020-0032410 2020-03-17
KR1020200032410A KR102168753B1 (ko) 2020-03-17 2020-03-17 카메라와 레이더 센서 융합 기반 3차원 객체 검출을 위한 전자 장치 및 그의 동작 방법

Publications (1)

Publication Number Publication Date
WO2021187793A1 true WO2021187793A1 (ko) 2021-09-23

Family

ID=73035453

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2021/002916 WO2021187793A1 (ko) 2020-03-17 2021-03-09 카메라와 레이더 센서 융합 기반 3차원 객체 검출을 위한 전자 장치 및 그의 동작 방법

Country Status (4)

Country Link
US (1) US11754701B2 (ko)
KR (1) KR102168753B1 (ko)
DE (1) DE102021106518A1 (ko)
WO (1) WO2021187793A1 (ko)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102168753B1 (ko) * 2020-03-17 2020-10-22 한국과학기술원 카메라와 레이더 센서 융합 기반 3차원 객체 검출을 위한 전자 장치 및 그의 동작 방법
KR20220063026A (ko) 2020-11-09 2022-05-17 충북대학교 산학협력단 3d 라이다의 고속 객체 인식을 위한 채널별 컨볼루션 기반의 합성곱 신경망 구조
KR102584070B1 (ko) 2020-11-23 2023-10-10 한국전자통신연구원 객체 분류 기반의 오류 제거를 이용한 자율 주행 시스템의 객체 인식 장치 및 이를 이용한 방법
US11586865B2 (en) 2021-02-18 2023-02-21 Volkswagen Aktiengesellschaft Apparatus, system and method for fusing sensor data to do sensor translation
CN114494563B (zh) * 2022-02-14 2022-10-11 北京清晨动力科技有限公司 航拍视频在数字地球上的融合显示方法和装置
CN114708585B (zh) * 2022-04-15 2023-10-10 电子科技大学 一种基于注意力机制的毫米波雷达与视觉融合的三维目标检测方法
DE102022121109A1 (de) 2022-08-22 2024-02-22 Valeo Schalter Und Sensoren Gmbh Visuelle Wahrnehmung mit einem Fahrzeug basierend auf einem Kamerabild und einer Ultraschallkarte
DE102022121111A1 (de) 2022-08-22 2024-02-22 Connaught Electronics Ltd. Automatische visuelle Wahrnehmung mit einem Fahrzeug unter Verwendung einer Kamera und eines Ultraschallsensorsystems
CN116660916B (zh) * 2023-05-26 2024-02-02 广东省农业科学院设施农业研究所 一种用于果园移动机器人的定位方法、建图方法及电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190147245A1 (en) * 2017-11-14 2019-05-16 Nuro, Inc. Three-dimensional object detection for autonomous robotic systems using image proposals
KR20190131207A (ko) * 2018-05-16 2019-11-26 한양대학교 산학협력단 센서 품질 저하에 강인한 딥러닝 기반 카메라, 라이더 센서 융합 인지 방법 및 시스템
KR102168753B1 (ko) * 2020-03-17 2020-10-22 한국과학기술원 카메라와 레이더 센서 융합 기반 3차원 객체 검출을 위한 전자 장치 및 그의 동작 방법

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180068473A1 (en) * 2016-09-06 2018-03-08 Apple Inc. Image fusion techniques
KR101758576B1 (ko) * 2016-11-21 2017-07-17 인하대학교 산학협력단 물체 탐지를 위한 레이더 카메라 복합 검지 장치 및 방법
KR102042438B1 (ko) * 2017-11-24 2019-11-27 재단법인대구경북과학기술원 레이더 및 카메라 융합 시스템 및 그것을 이용한 타겟 탐지 방법
US10346693B1 (en) * 2019-01-22 2019-07-09 StradVision, Inc. Method and device for attention-based lane detection without post-processing by using lane mask and testing method and testing device using the same

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190147245A1 (en) * 2017-11-14 2019-05-16 Nuro, Inc. Three-dimensional object detection for autonomous robotic systems using image proposals
KR20190131207A (ko) * 2018-05-16 2019-11-26 한양대학교 산학협력단 센서 품질 저하에 강인한 딥러닝 기반 카메라, 라이더 센서 융합 인지 방법 및 시스템
KR102168753B1 (ko) * 2020-03-17 2020-10-22 한국과학기술원 카메라와 레이더 센서 융합 기반 3차원 객체 검출을 위한 전자 장치 및 그의 동작 방법

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
AHN, SEONG-YONG; MIN, JIHONG; LEE, YOUNGIL; KWAK, KIHO: "A Robust Method for Lane Detection at Day/Night Time with 3D LIDAR and Camera", IEIE CONFERENCE, 1 June 2018 (2018-06-01), KR, pages 912 - 915, XP009530867 *
KIM, YECHEOL; KIM, JAEKYUM; KOH, JUNHO: "3D Vehicle Detection based on Camera Lidar Sensor Fusion", KSAE ANNUAL SPRING CONFERENCE, MAY 9-11, 2019, JEJU-SI, SOUTH KOREA, no. 19SKSAE_D116, 1 May 2019 (2019-05-01), Korea, pages 830 - 832, XP009530763 *
YOUNGSEOK KIM , DONGSUK KUM: "Fault Tolerant Vehicle Detection Using Camera-LiDAR Sensor Fusion : Multi-channel Faster R-CNN", KSAE ANNUAL SPRING CONFERENCE, 1 June 2018 (2018-06-01), pages 829 - 831, XP055852476 *

Also Published As

Publication number Publication date
US20210295090A1 (en) 2021-09-23
DE102021106518A1 (de) 2021-09-23
KR102168753B1 (ko) 2020-10-22
US11754701B2 (en) 2023-09-12

Similar Documents

Publication Publication Date Title
WO2021187793A1 (ko) 카메라와 레이더 센서 융합 기반 3차원 객체 검출을 위한 전자 장치 및 그의 동작 방법
JP6866440B2 (ja) 物体識別方法、装置、機器、車両及び媒体
WO2016003191A1 (ko) Ocr를 기반으로 지도 이미지를 인식하는 시스템과 방법, 그리고 기록 매체 및 파일 배포 시스템
WO2021172675A1 (ko) 불특정 다수의 주변 차량들에 대한 미래 경로 통합 예측을 위한 전자 장치 및 그의 동작 방법
EP3920003A1 (en) Positioning method and apparatus, autonomous driving vehicle, electronic device and storage medium
KR20210116186A (ko) 장애물 검출 방법, 장치, 전자 기기 및 저장 매체
WO2021241847A1 (ko) 시각 특징 맵 생성 방법 및 시스템
WO2021006491A1 (ko) 음원 시각화 장치 및 방법
CN111027381A (zh) 利用单目相机识别障碍物的方法、装置、设备及存储介质
JP2019006535A (ja) エレベータ及びエスカレータ
WO2021125578A1 (ko) 시각 정보 처리 기반의 위치 인식 방법 및 시스템
EP3660807A1 (en) Server device and vehicle
WO2021172833A1 (ko) 물체 인식 장치, 물체 인식 방법 및 이를 수행하기 위한 컴퓨터 판독 가능한 기록 매체
CN115147683A (zh) 位姿估计网络模型的训练方法、位姿估计方法及装置
WO2021221334A1 (ko) Gps정보 및 라이다 신호를 기초로 형성되는 컬러 맵 생성 장치 및 그 제어방법
US10509819B2 (en) Comparative geolocation system
WO2021167189A1 (ko) 360도 주변 물체 검출 및 인식 작업을 위한 다중 센서 데이터 기반의 융합 정보 생성 방법 및 장치
WO2021210725A1 (ko) 점군 정보 가공 장치 및 방법
CN113378705B (zh) 车道线检测方法、装置、设备及存储介质
WO2021201474A1 (ko) 객체를 분류하는 레이더 장치 및 방법
WO2021182793A1 (ko) 단일 체커보드를 이용하는 이종 센서 캘리브레이션 방법 및 장치
WO2021090990A1 (ko) 딥 러닝 기반 가상 환경 점 군 데이터의 반사도 정보 검출 방법 및 그를 수행하는 전자 장치
JP2021076884A (ja) 自動検出システムおよび自動検出プログラム
WO2023277219A1 (ko) 환경 변화 적응형 특징 생성기를 적용한 차량용 경량 딥러닝 처리 장치 및 방법
WO2023136495A1 (ko) 시각적 측위방법, 이를 이용하는 제어서버 및 건물

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21772262

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21772262

Country of ref document: EP

Kind code of ref document: A1