CN111507927B - 在神经网络中统合图像及点云图的方法及装置 - Google Patents

在神经网络中统合图像及点云图的方法及装置 Download PDF

Info

Publication number
CN111507927B
CN111507927B CN202010058810.8A CN202010058810A CN111507927B CN 111507927 B CN111507927 B CN 111507927B CN 202010058810 A CN202010058810 A CN 202010058810A CN 111507927 B CN111507927 B CN 111507927B
Authority
CN
China
Prior art keywords
feature map
test
training
fused
point cloud
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010058810.8A
Other languages
English (en)
Other versions
CN111507927A (zh
Inventor
金桂贤
金镕重
金寅洙
金鹤京
南云铉
夫硕焄
成明哲
吕东勋
柳宇宙
张泰雄
郑景中
诸泓模
赵浩辰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Stradvision Inc
Original Assignee
Stradvision Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Stradvision Inc filed Critical Stradvision Inc
Publication of CN111507927A publication Critical patent/CN111507927A/zh
Application granted granted Critical
Publication of CN111507927B publication Critical patent/CN111507927B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S13/00Systems using the reflection or reradiation of radio waves, e.g. radar systems; Analogous systems using reflection or reradiation of waves whose nature or wavelength is irrelevant or unspecified
    • G01S13/86Combinations of radar systems with non-radar systems, e.g. sonar, direction finder
    • G01S13/867Combination of radar systems with cameras
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S13/00Systems using the reflection or reradiation of radio waves, e.g. radar systems; Analogous systems using reflection or reradiation of waves whose nature or wavelength is irrelevant or unspecified
    • G01S13/88Radar or analogous systems specially adapted for specific applications
    • G01S13/89Radar or analogous systems specially adapted for specific applications for mapping or imaging
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S13/00Systems using the reflection or reradiation of radio waves, e.g. radar systems; Analogous systems using reflection or reradiation of waves whose nature or wavelength is irrelevant or unspecified
    • G01S13/88Radar or analogous systems specially adapted for specific applications
    • G01S13/93Radar or analogous systems specially adapted for specific applications for anti-collision purposes
    • G01S13/931Radar or analogous systems specially adapted for specific applications for anti-collision purposes of land vehicles
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S17/00Systems using the reflection or reradiation of electromagnetic waves other than radio waves, e.g. lidar systems
    • G01S17/86Combinations of lidar systems with systems other than lidar, radar or sonar, e.g. with direction finders
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S17/00Systems using the reflection or reradiation of electromagnetic waves other than radio waves, e.g. lidar systems
    • G01S17/88Lidar systems specially adapted for specific applications
    • G01S17/89Lidar systems specially adapted for specific applications for mapping or imaging
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S17/00Systems using the reflection or reradiation of electromagnetic waves other than radio waves, e.g. lidar systems
    • G01S17/88Lidar systems specially adapted for specific applications
    • G01S17/93Lidar systems specially adapted for specific applications for anti-collision purposes
    • G01S17/931Lidar systems specially adapted for specific applications for anti-collision purposes of land vehicles
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S7/00Details of systems according to groups G01S13/00, G01S15/00, G01S17/00
    • G01S7/02Details of systems according to groups G01S13/00, G01S15/00, G01S17/00 of systems according to group G01S13/00
    • G01S7/41Details of systems according to groups G01S13/00, G01S15/00, G01S17/00 of systems according to group G01S13/00 using analysis of echo signal for target characterisation; Target signature; Target cross-section
    • G01S7/417Details of systems according to groups G01S13/00, G01S15/00, G01S17/00 of systems according to group G01S13/00 using analysis of echo signal for target characterisation; Target signature; Target cross-section involving the use of neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/521Depth or shape recovery from laser ranging, e.g. using interferometry; from the projection of structured light
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/776Validation; Performance evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10032Satellite or aerial image; Remote sensing
    • G06T2207/10044Radar image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Remote Sensing (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Electromagnetism (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Optics & Photonics (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)
  • Traffic Control Systems (AREA)
  • Radar Systems Or Details Thereof (AREA)
  • Optical Radar Systems And Details Thereof (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本发明是在神经网络统合图像及点云图的方法及装置。本发明涉及一种学习方法及学习装置以及利用其的测试方法及测试装置,在将借助于照相机而生成的图像、与之对应的借助于雷达或激光雷达而生成的点云图,按神经网络的各自卷积步骤进行统合,其特征在于,包括:(a)步骤,计算装置使至少一个初始运算层,将借助于所述照相机而生成的至少一个原始图像,同与之对应的借助于所述雷达或所述激光雷达而生成的至少一个原始点云图进行统合,(i)将所述原始点云图包含的深度信息添加于所述原始图像,从而生成至少一个第一融合特征图,及(ii)将所述原始图像包含的颜色信息添加于所述原始点云图,从而生成至少一个第一融合点云图。

Description

在神经网络中统合图像及点云图的方法及装置
技术领域
本发明涉及用于与自动驾驶车辆一同使用的学习方法及学习装置,更具体而言,涉及一种将借助于照相机获得的图像、通过雷达或激光雷达获得的点云图进行统合的学习方法及学习装置,以及利用其的测试方法及测试装置。
背景技术
深层卷积神经网络(Deep Convolutional Neural Network:Deep CNN)是在深度学习领域发生的耀眼发展的核心。CNN为了解决文字识别问题而在90年代便已使用,但近来才在机器学习(Machine Learning)领域广泛使用。例如,CNN在2012年图像识别大赛(ImageNet Large Scale Visual Recognition Challenge)中战胜其他竞争者而赢得了冠军。之后,CNN成为了机器学习领域中非常有用的工具。
最近,CNN在自动驾驶汽车领域极为广泛地使用。当在自动驾驶汽车领域使用时,CNN执行从附着于汽车的照相机获得图像并据此搜索车道线等的作用。
但是,在CNN只利用从照相机获得的影像的情况下,在特定情况下,即在黑暗或大雾导致影像的可靠性不良的情况下,无法保障自动驾驶的安全性。因此,如果追加使用照相机之外的传感器,例如,使用至少一个雷达及/或至少一个激光雷达,则有助于更安全地进行自动驾驶,以往技术只将其单纯用作双轨方式(two-track),只是独立地运算并利用照相机获得的信息和雷达及/或激光雷达获得的信息而已。
在这种情况下,各个神经网络独立地运转,存在效率不高的问题。
发明内容
本发明的目的在于解决上述问题。
本发明目的在于提供一种按神经网络的各个卷积步骤,将借助于至少一个照相机而生成的至少一个图像、与之对应的借助于至少一个雷达或激光雷达而生成的至少一个点云图进行统合的方法。
本发明的目的是通过以下技术方案实现的:
根据本发明一个方面,提供一种将借助于至少一个照相机而生成的至少一个图像、与之对应的借助于至少一个雷达或激光雷达而生成的至少一个点云图,按神经网络的各个卷积步骤进行统合的方法,其特征在于,包括:(a)步骤,计算装置使至少一个初始运算层,将借助于所述照相机而生成的至少一个原始图像,同与之对应的借助于所述雷达或所述激光雷达而生成的至少一个原始点云图进行统合,(i)将所述原始点云图包含的深度信息添加于所述原始图像,从而生成至少一个第一融合特征图,及(ii)将所述原始图像包含的颜色信息添加于所述原始点云图,从而生成至少一个第一融合点云图;(b)步骤,所述计算装置使至少一个变换层,对所述第一融合特征图应用至少一个第一变换运算,从而生成第(1_1)中间特征图,对所述第一融合点云图应用至少一个第二变换运算,从而生成第(1_2)中间特征图;及(c)步骤,所述计算装置使至少一个统合层,统合所述第(1_1)中间特征图及所述第(1_2)中间特征图,从而生成第二融合特征图,对所述第二融合特征图应用至少一个映射运算,从而生成第二融合点云图。
一个实施例,提供一种方法,其特征在于,还包括:(d)步骤,所述计算装置反复进行所述(b)步骤及所述(c)步骤,其结果,(i)使所述变换层,对借助于所述统合层而生成的第N融合特征图应用至少一个所述第一变换运算,从而生成第N_1中间特征图,对借助于所述统合层而生成的第N融合点云图应用至少一个所述第二变换运算,从而生成第N_2中间特征图,(ii)使所述统合层,统合所述第N_1中间特征图及所述第N_2中间特征图,从而生成第N+1融合特征图,对所述第N+1融合特征图应用所述映射运算,从而生成第N+1融合点云图。
一个实施例,提供一种方法,其特征在于,还包括:(e)步骤,所述计算装置使至少一个输出层,参照所述第N+1融合特征图及所述第N+1融合点云图中至少一部分,执行包括客体探测、语义分割及深度预测中至少一部分的、车辆自动驾驶所需运算中的至少一部分。
一个实施例,提供一种方法,其特征在于,还包括:(f)步骤,借助于所述输出层而生成所述神经网络的至少一个输出后,所述计算装置参照所述输出及与之对应的至少一个地面真值GT,学习所述神经网络的一个以上参数的至少一部分。
一个实施例,提供一种方法,其特征在于,在所述(a)步骤中,所述第一融合特征图包括(i)所述原始图像包含的、关于各像素的原始颜色信息,及(ii)参照邻接所述雷达或所述激光雷达的三维空间上各位置的原始坐标信息而获得的、关于所述各像素的所述深度信息,其中,所述各位置包含于所述原始点云图,所述第一融合点云图包括(i)所述原始坐标信息,及(ii)参照所述原始颜色信息获得的、关于所述各位置的所述颜色信息。
一个实施例,提供一种方法,其特征在于,在所述(b)步骤中,通过对所述第一融合特征图应用包括至少一个卷积运算的所述第一变换运算而生成所述第(1_1)中间特征图。
一个实施例,提供一种方法,其特征在于,在所述(b)步骤中,通过对所述第一融合特征图应用除至少一个卷积运算之外还包括至少一个修正线性单元ReLU运算及至少一个池化运算的所述第一变换运算而生成所述第(1_1)中间特征图。
一个实施例,提供一种方法,其特征在于,在所述(b)步骤中,通过对所述第一融合点云图应用包括至少一个神经网络运算、至少一个逆映射运算及至少一个卷积运算的所述第二变换运算而生成所述第(1_2)中间特征图,所述逆映射运算是使(i)所述第一融合点云图包括的、所述颜色信息与三维坐标联动的形态的所述深度信息与(ii)所述第(1_1)中间特征图的各个特征联动的运算。
一个实施例,提供一种方法,其特征在于,在所述(c)步骤中,所述第二融合特征图通过将所述第(1_1)中间特征图及所述第(1_2)中间特征图沿通道方向级联而生成。
一个实施例,提供一种方法,其特征在于,在所述(c)步骤中,所述映射运算是使(i)所述第二融合特征图的各个特征值,与(ii)邻接所述雷达或所述激光雷达的三维空间上的各位置联动的运算。
根据本发明的另一个方面,提供一种测试方法,将借助于至少一个照相机而生成的至少一个图像、与此对应的借助于至少一个雷达或激光雷达而生成的至少一个点云图,按神经网络的各个卷积步骤进行统合并利用其进行测试,其特征在于,包括:(a)步骤,(1)流程,学习装置使至少一个初始运算层,将借助于所述照相机而生成的至少一个原始训练图像,同与之对应的借助于所述雷达或所述激光雷达而生成的至少一个训练用原始点云图进行统合,(i)将所述训练用原始点云图包含的训练用深度信息添加于所述原始训练图像,从而生成至少一个训练用第一融合特征图,及(ii)将所述原始训练图像包含的训练用颜色信息添加于所述训练用原始点云图,从而生成至少一个训练用第一融合点云图;(2)流程,所述学习装置使至少一个变换层,对所述训练用第一融合特征图应用至少一个第一变换运算,从而生成训练用第(1_1)中间特征图,对所述训练用第一融合点云图应用至少一个第二变换运算,从而生成训练用第(1_2)中间特征图;(3)流程,所述学习装置使至少一个统合层,统合所述训练用第(1_1)中间特征图及所述训练用第(1_2)中间特征图,从而生成训练用第二融合特征图,对所述训练用第二融合特征图应用至少一个映射运算,从而生成训练用第二融合点云图;(4)流程,所述学习装置反复进行所述(2)流程及所述(3)流程,其结果,(i)使所述变换层,对借助于所述统合层而生成的训练用第N融合特征图应用至少一个所述第一变换运算,从而生成训练用第N_1中间特征图,对借助于所述统合层而生成的训练用第N融合点云图应用至少一个所述第二变换运算,从而生成训练用第N_2中间特征图,(ii)使所述统合层,统合所述训练用第N_1中间特征图及所述训练用第N_2中间特征图,从而生成训练用第N+1融合特征图,对所述训练用第N+1融合特征图应用所述映射运算,从而生成训练用第N+1融合点云图;(5)流程,所述学习装置使至少一个输出层,参照所述训练用第N+1融合特征图及所述训练用第N+1融合点云图中至少一部分,执行包括客体探测、语义分割及深度预测中至少一部分的、车辆自动驾驶所需运算中的至少一部分;(6)流程,借助于所述输出层而生成所述神经网络的至少一个输出后,所述学习装置参照所述输出及与之对应的至少一个GT,学习所述神经网络的一个以上参数的至少一部分;在执行了如上流程的状态下,测试装置使所述初始运算层,将借助于所述照相机而生成的至少一个原始测试图像,同与之对应的借助于所述雷达或所述激光雷达而生成的至少一个测试用原始点云图进行统合,(i)将所述测试用原始点云图包含的测试用深度信息添加于所述原始测试图像,从而生成至少一个测试用第一融合特征图,及(ii)将所述原始测试图像包含的测试用颜色信息添加于所述测试用原始点云图,从而生成至少一个测试用第一融合点云图;(b)步骤,所述测试装置使至少一个变换层,对所述测试用第一融合特征图应用至少一个第一变换运算,从而生成测试用第(1_1)中间特征图,对所述测试用第一融合点云图应用至少一个第二变换运算,从而生成测试用第(1_2)中间特征图;(c)步骤,所述测试装置使所述统合层,统合所述测试用第(1_1)中间特征图及所述测试用第(1_2)中间特征图,从而生成测试用第二融合特征图,对所述测试用第二融合特征图应用至少一个映射运算,从而生成测试用第二融合点云图;(d)步骤,所述测试装置反复进行所述(b)步骤及所述(c)步骤,其结果,(i)使所述变换层,对借助于所述统合层而生成的测试用第N融合特征图应用至少一个所述第一变换运算,从而生成测试用第N_1中间特征图,对借助于所述统合层而生成的测试用第N融合点云图应用至少一个所述第二变换运算,从而生成测试用第N_2中间特征图,(ii)使所述统合层,统合所述测试用第N_1中间特征图及所述测试用第N_2中间特征图,从而生成第N+1融合特征图,对所述测试用第N+1融合特征图应用所述映射运算,从而生成测试用第N+1融合点云图;(e)步骤,所述测试装置使至少一个输出层,参照所述测试用第N+1融合特征图及所述测试用第N+1融合点云图中至少一部分,执行包括客体探测、语义分割及深度预测中至少一部分的、车辆自动驾驶所需运算中的至少一部分。
根据本发明的又另一个方面,提供一种计算装置,将借助于至少一个照相机而生成的至少一个图像、与之对应的借助于至少一个雷达或激光雷达而生成的至少一个点云图,按神经网络的各个卷积步骤进行统合,其特征在于,包括:存储指令的至少一个存储器;及至少一个处理器,所述至少一个处理器构成为运行用于执行如下流程的所述指令:(I)流程,使至少一个初始运算层,将借助于所述照相机而生成的至少一个原始图像,同与之对应的借助于所述雷达或所述激光雷达而生成的至少一个原始点云图进行统合,(i)将所述原始点云图包含的深度信息添加于所述原始图像,从而生成至少一个第一融合特征图,及(ii)将所述原始图像包含的颜色信息添加于所述原始点云图,从而生成至少一个第一融合点云图;(II)流程,使至少一个变换层,对所述第一融合特征图应用至少一个第一变换运算,从而生成第(1_1)中间特征图,对所述第一融合点云图应用至少一个第二变换运算,从而生成第(1_2)中间特征图;(III)流程,使至少一个统合层,统合所述第(1_1)中间特征图及所述第(1_2)中间特征图,从而生成第二融合特征图,对所述第二融合特征图应用至少一个映射运算,从而生成第二融合点云图。
一个实施例,提供一种计算装置,其特征在于,还执行:(IV)流程,所述处理器反复进行所述(II)流程及所述(III)流程其结果,(i)使所述变换层,对借助于所述统合层而生成的第N融合特征图应用至少一个所述第一变换运算,从而生成第N_1中间特征图,对借助于所述统合层而生成的第N融合点云图应用至少一个所述第二变换运算,从而生成第N_2中间特征图,(ii)使所述统合层,统合所述第N_1中间特征图及所述第N_2中间特征图,从而生成第N+1融合特征图,对所述第N+1融合特征图应用所述映射运算,从而生成第N+1融合点云图。
一个实施例,提供一种计算装置,其特征在于,还执行:(V)流程,所述处理器使至少一个输出层,参照所述第N+1融合特征图及所述第N+1融合点云图中至少一部分,执行包括客体探测、语义分割及深度预测中至少一部分的、车辆自动驾驶所需运算中的至少一部分。
一个实施例,提供一种计算装置,其特征在于,还执行:(VI)流程,借助于所述输出层而生成了所述神经网络的至少一个输出,则所述处理器参照所述输出及与之对应的至少一个GT,学习所述神经网络的一个以上参数的至少一部分。
一个实施例,提供一种计算装置,其特征在于,在所述(I)流程中,所述第一融合特征图包括(i)所述原始图像包含的、关于各像素的原始颜色信息,及(ii)参照邻接所述雷达或所述激光雷达的三维空间上各位置的原始坐标信息获得的、关于所述各像素的所述深度信息,其中,所述各位置包含于所述原始点云图,所述第一融合点云图包括(i)所述原始坐标信息及(ii)参照所述原始颜色信息获得的、关于所述各位置的所述颜色信息。
一个实施例,提供一种计算装置,其特征在于,在所述(II)流程中,通过对所述第一融合特征图应用包括至少一个卷积运算的所述第一变换运算而生成所述第(1_1)中间特征图。
一个实施例,提供一种计算装置,其特征在于,在所述(II)流程中,通过对所述第一融合特征图应用除至少一个卷积运算之外还包括至少一个ReLU运算及至少一个池化运算的所述第一变换运算而生成所述第(1_1)中间特征图。
一个实施例,提供一种计算装置,其特征在于,在所述(II)流程中,通过对所述第一融合点云图应用包括至少一个神经网络运算、至少一个逆映射运算及至少一个卷积运算的所述第二变换运算而生成所述第(1_2)中间特征图,所述逆映射运算是使(i)所述第一融合点云图包括的、所述颜色信息与三维坐标联动的形态的所述深度信息与(ii)所述第(1_1)中间特征图的各个特征联动的运算。
一个实施例,提供一种计算装置,其特征在于,在所述(III)流程中,通过将所述第(1_1)中间特征图及所述第(1_2)中间特征图沿通道方向级联而生成所述第二融合特征图。
一个实施例,提供一种计算装置,其特征在于,在所述(III)流程中,所述映射运算是(i)使所述第二融合特征图的各个特征值与(ii)邻接所述雷达或所述激光雷达的三维空间上的各位置联动的运算。
根据本发明的又另一个方面,提供一种测试装置,在将借助于至少一个照相机而生成的至少一个图像、与之对应的借助于至少一个雷达或激光雷达而生成的至少一个点云图,按神经网络的各个卷积步骤进行统合并利用其进行测试,其特征在于,包括:存储指令的至少一个存储器;及至少一个处理器,所述至少一个处理器构成为运行用于执行如下流程的指令:(1)流程,学习装置使至少一个初始运算层,将借助于所述照相机而生成的至少一个原始训练图像,同与之对应的借助于所述雷达或所述激光雷达而生成的至少一个训练用原始点云图进行统合,(i)将所述训练用原始点云图包含的训练用深度信息添加于所述原始训练图像,从而生成至少一个训练用第一融合特征图,及(ii)将所述原始训练图像包含的训练用颜色信息添加于所述训练用原始点云图,从而生成至少一个训练用第一融合点云图;(2)流程,所述学习装置使至少一个变换层,对所述训练用第一融合特征图应用至少一个第一变换运算,从而生成训练用第(1_1)中间特征图,对所述训练用第一融合点云图应用至少一个第二变换运算,从而生成训练用第(1_2)中间特征图;(3)流程,所述学习装置使至少一个统合层,统合所述训练用第(1_1)中间特征图及所述训练用第(1_2)中间特征图,从而生成训练用第二融合特征图,对所述训练用第二融合特征图应用至少一个映射运算,从而生成训练用第二融合点云图;(4)流程,所述学习装置反复进行所述(2)流程及所述(3)流程,其结果,(i)使所述变换层,对借助于所述统合层而生成的训练用第N融合特征图应用至少一个所述第一变换运算,从而生成训练用第N_1中间特征图,对借助于所述统合层而生成的训练用第N融合点云图应用至少一个所述第二变换运算,从而生成训练用第N_2中间特征图,(ii)使所述统合层,统合所述训练用第N_1中间特征图及所述训练用第N_2中间特征图,从而生成训练用第N+1融合特征图,对所述训练用第N+1融合特征图应用所述映射运算,从而生成训练用第N+1融合点云图;(5)流程,所述学习装置使至少一个输出层,参照所述训练用第N+1融合特征图及所述训练用第N+1融合点云图中至少一部分,执行包括客体探测、语义分割及深度预测中至少一部分的、车辆自动驾驶所需运算中的至少一部分;(6)流程,借助于所述输出层而生成所述神经网络的至少一个输出后,所述学习装置参照所述输出及与之对应的至少一个GT,学习所述神经网络的一个以上参数的至少一部分;在执行了如上流程的状态下,所述至少一个处理器执行:(I)流程,使所述初始运算层,将借助于所述照相机而生成的至少一个原始测试图像,同与之对应的借助于所述雷达或所述激光雷达而生成的至少一个测试用原始点云图进行统合,(i)将所述测试用原始点云图包含的测试用深度信息添加于所述原始测试图像,从而生成至少一个测试用第一融合特征图,及(ii)将所述原始测试图像包含的测试用颜色信息添加于所述测试用原始点云图,从而生成至少一个测试用第一融合点云图;(II)流程,使所述变换层,对所述测试用第一融合特征图应用至少一个第一变换运算,从而生成测试用第(1_1)中间特征图,对所述测试用第一融合点云图应用至少一个第二变换运算,从而生成测试用第(1_2)中间特征图;(III)流程,使所述统合层,统合所述测试用第(1_1)中间特征图及所述测试用第(1_2)中间特征图,从而生成测试用第二融合特征图,对所述测试用第二融合特征图应用至少一个映射运算,从而生成测试用第二融合点云图;(IV)流程,所述测试装置反复进行所述(II)流程及所述(III)流程,其结果,(i)使所述变换层,对借助于所述统合层而生成的测试用第N融合特征图应用至少一个所述第一变换运算,从而生成测试用第N_1中间特征图,对借助于所述统合层而生成的测试用第N融合点云图应用至少一个所述第二变换运算,从而生成测试用第N_2中间特征图,(ii)使所述统合层,统合所述测试用第N_1中间特征图及所述测试用第N_2中间特征图,从而生成第N+1融合特征图,对所述测试用第N+1融合特征图应用所述映射运算,从而生成测试用第N+1融合点云图;(V)流程,使所述输出层,参照所述测试用第N+1融合特征图及所述测试用第N+1融合点云图中至少一部分,执行包括客体探测、语义分割及深度预测中至少一部分的、车辆自动驾驶所需运算中的至少一部分。
与现有技术相比,本发明的优点在于:
本发明提供一种将借助于照相机而生成的图像、与之对应的借助于雷达或激光雷达或两种传感器融合而生成的点云图,按神经网络的各个卷积步骤进行统合的方法,从而具有使CNN可以将借助于照相机而生成的信息与借助于雷达、激光雷达或两种传感器融合而生成的信息进行统合运算的效果。
另外,本发明可以用于HD地图(High Definition map,高精度地图)更新,效果在于改善距离预测以及客体检测及分割。
附图说明
为了用于说明本发明实施例而附带的下面的图,只是本发明实施例中的一部分,本发明所属技术领域的普通技术人员(以下称为“普通技术人员”)可以不进行发明性作业,基于这些图获得其他图。
图1是根据本发明一个实施例来显示计算装置的构成的图,所述计算装置执行将借助于至少一个照相机而生成的至少一个图像、与之对应的借助于至少一个雷达或激光雷达而生成的至少一个点云图,按神经网络的各个卷积步骤统合的方法。
图2是根据本发明一个实施例来显示神经网络的构成的图,所述神经网络执行将借助于照相机而生成的图像、与之对应的借助于雷达或激光雷达而生成的点云图,按神经网络的各个卷积步骤统合的方法。
图3是根据本发明一个实施例来显示借助于至少一个初始运算层而生成的第一融合特征图及第一融合点云图的图,所述至少一个初始运算层执行将借助于照相机而生成的图像、与之对应的借助于雷达或激光雷达而生成的点云图,按神经网络的各个卷积步骤统合的方法。
图4是根据本发明一个实施例来显示将借助于照相机而生成的图像、与之对应的借助于雷达或激光雷达而生成的点云图,按神经网络的各个卷积步骤统合的示例的图。
图5是根据本发明一个实施例来显示第二变换运算的图,所述第二变换运算是将借助于照相机而生成的图像、与之对应的借助于雷达或激光雷达而生成的点云图,按神经网络的各个卷积步骤统合的方法的一部分。
具体实施方式
后述有关本发明的详细说明,参照作为示例而图示本发明可实施的特定实施例的附图。对这些实施例进行了详细说明,以便从业人员足以实施本发明。本发明的多样实施例虽然互不相同,但应理解为不需要相互排他。例如,在此记载的特定形状、结构及特性,可以与一个实施例相关联,在不超出本发明的精神及范围的前提下体现为其他实施例。另外,各个公开的实施例内的个别构成要素的位置及配置,应理解为在不超出本发明的精神及范围的前提下可以进行变更。因此,后述的详细说明并非出于限定之意,本发明的范围,如能适当说明,则仅由与其权利要求所主张的内容等同的所有范围和所附权利要求所限定。在附图中,类似的附图标记指称在多个方面相同或类似的功能。
另外,在本发明的详细说明及权利要求中,“包括”字样的术语及其变形,并非要将其他技术特征、附加物、构成要素或步骤排除在外。对于普通技术人员而言,本发明的其他目的、优点及特性,一部分从本说明书,而一部分则从本发明的实施中显现出来。以下的示例及附图是作为实例而提供的,并非意图限定本发明。
本发明中提及的各种图像可以包括铺装或非铺装道路相关图像,是可以假定此时会在道路环境中出现的物体(例如汽车、人、动物、植物、物品、建筑物、诸如飞机或无人机的飞行体、其他障碍物)的图像,但并非必须限定于此,本发明中提及的各种图像也可以是与道路无关的图像(例如与非铺设道路、小胡同、空地、海、湖、河、山、树林、沙漠、天空、室内相关的图像),是可以推断此时会在非铺设道路、小胡同、空地、海、湖、河、山、树林、沙漠、天空、室内环境中出现的物体(例如汽车、人、动物、植物、物品、建筑物、诸如飞机或无人机的飞行体、其他障碍物)的图像,但并非必须限定于此。
下面为了让本发明所属技术领域的普通技术人员能够容易地实施本发明,参照附图,就本发明优选实施例进行详细说明。
图1是根据本发明一个实施例来显示计算装置的构成的图,所述计算装置执行将借助于至少一个照相机而生成的至少一个图像、与之对应的借助于至少一个雷达或激光雷达而生成的至少一个点云图,按神经网络的各个卷积步骤统合的方法。
参照图1,计算装置100包括作为稍后将详细说明的构成要素的神经网络200。神经网络200及神经网络200包括的稍后将说明的各层的输入输出及运算过程,分别借助于通信部110及处理器120而实现。在图1中,省略了通信部110及处理器120的具体连接关系。此时,至少一个存储器115是预先存储了后述各种指令的状态,处理器120设置成执行存储器115中存储的指令,且处理器120执行稍后说明的流程,从而可以执行本发明。如上所述描述了计算装置100,并非排除计算装置100包括由实施本发明所需的介质(medium)、处理器及存储器统合而成的形态的统合处理器的情形。
另外,参照图1,计算装置100通过(i)至少一个照相机300及(ii)至少一个雷达或激光雷达400而获得数据。这种连接关系并非只意味着计算装置100通过照相机300及雷达或激光雷达400而实时获得数据。尤其是在计算装置100执行稍后将说明的学习过程的情况下,也可以从并非照相机300及雷达或激光雷达400的外部,获得(i)具有借助于照相机300而生成的数据形式的至少一个训练用原始图像及(ii)具有借助于雷达或激光雷达400而生成的数据形式的至少一个训练用原始点云图。
以上对计算装置100的整体构成进行了说明,为了说明其中发挥核心作用的神经网络200的结构,将参照图2。
图2是根据本发明一个实施例来显示神经网络的构成的图,所述神经网络执行将借助于照相机而生成的图像、与之对应的借助于雷达或激光雷达而生成的点云图,按神经网络的各个卷积步骤统合的方法。
参照图2,神经网络200包括至少一个初始运算层210、至少一个变换层220、至少一个统合层230及至少一个输出层240。对于各个层的作用,将在具体说明本发明一个实施例的统合方法的时候一同说明。
以上对本发明的构成要素进行了说明,下面对本发明的一个具体实施例的统合方法进行说明,在此之前,对于为了对此进行说明而将在本说明书中使用的特有的标记法(notation)进行说明。
在以下附图及详细说明中,可以确认到[A、B]及[C、D、E]形态的标记法。其中,[A、B]标记法是为了描述点云图而使用的,[C、D、E]标记法是为了表示图像或特征图而使用的。具体而言,在[A、B]标记法中,B部分意味着相应点云图中包含的坐标的个数,A部分意味着与各坐标对应的值的通道数。例如,如果有[3、M]的点云图,则代表在相应点云图中,坐标存在M个,以各个坐标与3个通道的值联动的状态存在。在[C、D、E]标记法中,D意味着相应图像或相应特征图的第一轴方向特征值的个数,E意味着相应图像或相应特征图的第二轴方向特征值的个数。C意味着特征图包含的各个特征值的通道数。所述第一轴及所述第二轴可以为y轴及x轴,此外,也可以是用于表现坐标的某种轴。例如,如果有[4、h、w]的特征图,则可以是特征图的x轴方向像素数为w、y轴方向像素数为h、其通道数为4的特征图。
另外,存在稍后将详细说明的至少一个映射运算及至少一个逆映射(inversemapping)运算,所谓映射运算,可以是将具有特征图形态的数据变换成具有点云图形态的数据的运算,相反,所谓逆映射运算,可以是将具有点云图形态的数据变换成具有特征图形态的数据的运算。
下面参照图3、图4及图5,对本发明一个实施例的统合方法进行说明。
图3是根据本发明一个实施例来显示借助于至少一个初始运算层而生成的第一融合特征图及第一融合点云图的图,所述至少一个初始运算层执行将借助于照相机而生成的图像、与之对应的借助于雷达或激光雷达而生成的点云图,按神经网络的各个卷积步骤统合的方法。
参照图3,为了执行本发明的统合方法,计算装置100使初始运算层210,在获得原始图像及原始点云图后将其统合,生成第一融合特征图(201_1)及第一融合点云图(202_1)。原始图像及原始点云图如前所述,可以通过照相机300及雷达或激光雷达400而直接获得,或从任意的外部作为训练用数据而获得。
首先,如果更具体地说明第一融合特征图(201_1)的生成过程,初始运算层210可以使原始图像包含的各个像素对应至原始点云图包含的各个坐标。然后,参照与原始图像包含的各个像素对应的、原始点云图包含的原始坐标信息,生成关于原始图像包含的各个像素的深度信息。然后,初始运算层210可以将深度信息,添加到与各个像素对应的原始颜色信息,从而生成第一融合特征图(201_1)。即,第一融合特征图(201_1)在原始图像中添加深度通道,等同于在相应深度通道中添加与各像素对应的深度信息。如果利用前述的标记法,第一融合特征图(201_1)在具有[3,h1,w1]形态的原始图像中添加深度信息,而具有添加了一个通道形态的[4,h1,w1]的形态。
接着,对第一融合点云图(202_1)的生成过程进行考查,当原始点云图具有[3,M]形态时,初始运算层210使具有[3,h1,w1]形态的原始图像包含的各像素对应于原始点云图包含的M个坐标后,将参照所述原始图像包含的原始颜色信息而获得的、与各个M坐标对应的颜色信息添加于原始点云图,从而可以生成第一融合点云图(202_1)。其中,第一融合点云图(202_1)是在各个原始坐标信息中添加了与各个M坐标对应的颜色信息的各部分的形态,因而具有[6,M]的形态。
又,参照图4,如前所述生成了第一融合特征图(201_1)及第一融合点云图(202_1)后,计算装置100可以使变换层220,对第一融合特征图(201_1)应用至少一个第一变换运算,从而生成第(1_1)中间特征图(203_1),对第一融合点云图(202_1)应用至少一个第二变换运算,从而生成第(1_2)中间特征图(204_1)。
在本发明的一个实施例中,可以在神经网络200的各个卷积步骤中成对地生成中间特征图。
其中,第一变换运算可以包括至少一个卷积运算,此外,还可以包括至少一个ReLU(Rectified Linear Unit,修正线性单元)运算及至少一个池化(pooling)运算。借助于第一变换运算,可以将具有[4,h1,w1]形态的第一融合特征图(201_1)变换成具有[c2,h2,w2]形态的第(1_1)中间特征图(203_1)。由于减小特征图大小而增加其通道数的卷积运算,h2及w2可以分别小于h1及w1,c2可以大于4。
另外,第二变换运算如前所述,可以将第一融合点云图(202_1)变换成第(1_2)中间特征图(204_1)。下面参照图5对此进行说明。
图5是根据本发明一个实施例来显示第二变换运算的图,所述第二变换运算是将借助于照相机而生成的图像、与之对应的借助于雷达或激光雷达而生成的点云图,按神经网络的各个卷积步骤统合的方法的一部分。
第二变换运算可以包括至少一个神经网络运算、至少一个逆映射运算及至少一个卷积运算。首先,神经网络运算可以将具有[6,M]形态的第一融合点云图(202_1)变换成具有[f2,M]形态的临时点云图。这是为了根据稍后将说明的输出层240将执行的功能,决定将输入到输出层240的第N+1融合特征图及第N+1融合点云图的通道数。因此,f2既可以大于6,也可以小于6。神经网络运算如上所述,可以变更与各坐标联动的值的通道数。
然后,前述的逆映射运算可以应用于所述临时点云图。这可以将第一融合点云图(202_1)包含的、颜色信息联运于三维坐标的形态的信息,变换成具有与第(1_1)中间特征图(203_1)相同的第一轴及第二轴方向长度的特征图。使用前述的标记法,临时点云图具有[f2,M]的形态,将其变换成具有[f2,h2,w2]形态的临时特征图。第一轴方向长度与第二轴方向长度分别为h2、w2,这与第(1_1)中间特征图(203_1)相同,这是为了容易进行稍后将说明的各通道级联。不过,在逆映射运算的情况下,变换临时点云图,使得与大小经过前述卷积运算而减小的第(1_1)中间特征图(203_1)大小对应,因而特征值的个数可以小于临时点云图包含的坐标的个数。在这种情况下,与临时点云图包含的多个坐标对应的多个值,可以与一个特征值对应,其中,可以将所述多个值的平均值用作相应的特征值。
而且,可以追加地将卷积运算应用于临时特征图。这是为了在将临时点云图的值逆映射到临时特征图时,输出无法从临时点云图的值计算的临时特征图的值。即,将临时点云图的值逆映射到临时特征图后,通过卷积运算而平滑地填充空的特征值。其中,借助于卷积运算,临时特征图在变换成第(1_2)中间特征图(204_1)的时候,大小或通道数不变,因而第(1_2)中间特征图(204_1)具有与临时特征图相同的[f2,h2,w2]形态。
通过这种第二变换运算而生成第(1_2)中间特征图(204_1)后,计算装置100可以使统合层230,统合第(1_1)中间特征图(203_1)及第(1_2)中间特征图(204_1),从而生成第二融合特征图(201_2),对第二融合特征图(201_2)应用映射运算,从而生成第二融合点云图(202_2)。
其中,第二融合特征图(201_2)可以通过将第(1_1)中间特征图(203_1)及第(1_2)中间特征图(204_1)沿通道方向级联而生成。沿通道方向级联的结果,将具有[c2,h2,w2]形态的第(1_1)中间特征图(203_1)与具有[f2,h2,w2]形态的第(1_2)中间特征图(204_1)统合,生成具有[c2+f2,h2,w2]形态的第二融合特征图(201_2)。
第二融合点云图(202_2)是对如上所述生成的第二融合特征图(201_2)应用映射运算而生成,映射运算可以使第二融合特征图(201_2)包含的各个特征值,与邻接雷达或激光雷达400的三维空间上的各地点联动。再次使用前述的标记法,当第二融合特征图(201_2)具有[c2+f2,h2,w2]的形态时,第二融合点云图(202_2)具有[c2+f2,M]的形态。即,使第二融合特征图(201_2)包含的各个特征值,与原始点云图及第一融合点云图(202_1)包含的各个坐标信息联动。
如上所述生成第二融合特征图(201_2)及第二融合点云图(202_2)后,计算装置100可以使变换层220及统合层230,对第二融合特征图(201_2)及第二融合点云图(202_2),应用曾对第一融合特征图(201_1)及第一融合点云图(202_1)应用的运算,从而生成第三融合特征图(图上未示出)及第三融合点云图(图上未示出)。反复进行这种过程而生成第N融合特征图(201_N)及第N融合点云图(202_N)后,计算装置100可以对第N融合特征图(201_N)应用至少一个第一变换运算,从而生成第N_1中间特征图(203_N),对第N融合点云图(202_N)应用至少一个第二变换运算,从而生成第N_2中间特征图(204_N),然后,统合第N_1中间特征图(203_N)及第N_2中间特征图(204_N),从而生成第N+1融合特征图(201_(N+1)),对第N+1融合特征图(201_(N+1))应用映射运算,从而生成第N+1融合点云图(202_(N+1))。
然后,计算装置100可以使输出层240,参照第N+1融合特征图(201_(N+1))及第N+1融合点云图(202_(N+1))中至少一部分,执行包括客体探测、语义分割及深度预测中至少一部分的、车辆自动驾驶所需运算中的至少一部分。作为另一示例,计算装置100可以使输出层240,使用此前步骤生成的融合特征图及融合点云图,取代使用第N+1融合特征图(201_(N+1))及第N+1融合点云图(202_(N+1))。
然后,借助于输出层而生成所述神经网络200的至少一个输出后,计算装置100可以参照所述输出及与之对应的至少一个GT(Grand Truth,地面真值),计算一个以上的损失,以所述损失为参照,学习所述神经网络200的一个以上参数的至少一部分。
结果,所述卷积运算及神经网络运算的参数,可以根据自动驾驶车辆所需的运算而优化。
以上对计算装置100的学习过程进行了说明,下面将对计算装置100的测试过程进行说明。下面使用学习装置、测试装置字样的术语,取代计算装置100,可以将完成全部学习过程之前的计算装置100理解为学习装置,将完成全部学习过程之后的计算装置100理解为测试装置。
作为参考,在后述说明中为了防止混同,在与训练流程相关的术语中添加了“训练用”字样的语句,在与测试流程相关的术语中添加了“测试用”字样的语句。
(a)(1)学习装置100使初始运算层210,将借助于所述照相机300而生成的至少一个原始训练图像,同与之对应的借助于所述雷达或所述激光雷达400而生成的至少一个训练用原始点云图统合,(i)将所述训练用原始点云图包含的训练用深度信息添加于所述原始训练图像,从而生成至少一个训练用第一融合(fused)特征图,及(ii)将所述原始训练图像包含的训练用颜色信息添加于所述训练用原始点云图,从而生成至少一个训练用第一融合点云图;(2)所述学习装置100使至少一个变换层220,对所述训练用第一融合特征图应用至少一个第一变换运算,从而生成训练用第(1_1)中间(intermediate)特征图,对所述训练用第一融合点云图应用至少一个第二变换运算,从而生成训练用第(1_2)中间特征图;(3)所述学习装置100使至少一个统合层230,统合所述训练用第(1_1)中间特征图及所述训练用第(1_2)中间特征图,从而生成训练用第二融合特征图,对所述训练用第二融合特征图应用至少一个映射运算,从而生成训练用第二融合点云图;(4)所述学习装置100反复进行所述(2)步骤及所述(3)步骤,其结果,(i)使所述变换层220,对借助于所述统合层230而生成的训练用第N融合特征图应用至少一个所述第一变换运算,从而生成训练用第N_1中间特征图,对借助于所述统合层230而生成的训练用第N融合点云图应用至少一个所述第二变换运算,从而生成训练用第N_2中间特征图,(ii)使所述统合层230,统合所述训练用第N_1中间特征图及所述训练用第N_2中间特征图,从而生成训练用第N+1融合特征图,对所述训练用第N+1融合特征图应用所述映射运算,从而生成训练用第N+1融合点云图;(5)所述学习装置100使至少一个输出层240,所述训练用第N+1融合特征图及所述训练用第N+1融合点云图中至少一部分,执行包括客体探测、语义分割及深度预测中至少一部分的、车辆自动驾驶所需运算中的至少一部分;(6)借助于所述输出层240生成所述神经网络200的至少一个输出后,所述学习装置100参照所述输出及与之对应的至少一个GT,学习所述神经网络的一个以上参数的至少一部分;在如上状态下,测试装置可以使所述初始运算层210,将借助于所述照相机而生成的至少一个原始测试图像、与之对应的借助于所述雷达或所述激光雷达而生成的至少一个测试用原始点云图进行统合,(i)将所述测试用原始点云图包含的测试用深度信息添加于所述原始测试图像,从而生成至少一个测试用第一融合(fused)特征图,及(ii)将所述原始测试图像包含的测试用颜色信息添加于所述测试用原始点云图,从而生成至少一个测试用第一融合点云图。
然后,(b)所述测试装置可以使所述变换层220,对所述测试用第一融合特征图应用至少一个第一变换运算,从而生成测试用第(1_1)中间(intermediate)特征图,对所述测试用第一融合点云图应用至少一个第二变换运算,从而生成测试用第(1_2)中间特征图。
另外,(c)所述测试装置可以使所述统合层230,统合所述测试用第(1_1)中间特征图及所述测试用第(1_2)中间特征图,从而生成测试用第二融合特征图,对所述测试用第二融合特征图应用至少一个映射运算,从而生成测试用第二融合点云图。
然后,(d)所述测试装置反复进行所述(b)步骤及所述(c)步骤,其结果,可以(i)使所述变换层220,对借助于所述统合层230而生成的测试用第N融合特征图应用至少一个所述第一变换运算,从而生成测试用第N_1中间特征图,对借助于所述统合层而生成的测试用第N融合点云图应用至少一个所述第二变换运算,从而生成测试用第N_2中间特征图,(ii)使所述统合层230,统合所述测试用第N_1中间特征图及所述测试用第N_2中间特征图,从而生成测试用第N+1融合特征图,对所述测试用第N+1融合特征图应用所述映射运算,从而生成测试用第N+1融合点云图。
另外,(e)所述测试装置可以使所述输出层240,参照所述测试用第N+1融合特征图及所述测试用第N+1融合点云图中至少一部分,执行包括客体探测、语义分割及深度预测中至少一部分的、车辆自动驾驶所需运算中的至少一部分。
参照如上所述根据车辆自动驾驶所需的相应运算而优化的参数,统合利用借助于照相机300而生成的图像与借助于雷达或激光雷达400而生成的点云图,从而神经网络200可以发挥远远更好的性能。
本发明技术领域的普通技术人员可以理解,上面说明的图像,例如原始图像、原始标签及添加标签的图像数据的接收发送,可以借助于学习装置及测试装置的通信部而实现,特征图和执行运算所需的数据可以由学习装置或测试装置的处理器(及/或存储器)而保有/维持,卷积运算、反卷积运算、损失值运算过程主要可以借助于学习装置及测试装置的处理器而执行,但本发明不限定于此。
以上说明的本发明的实施例可以体现为可通过多样计算机构成要素而执行的程序命令的形态,记录于计算机可读记录介质。所述计算机可读记录介质可以单独或组合包括程序命令、数据文件、数据结构等。所述计算机可读记录介质中记录的程序命令可以是为本发明而特别设计、构成的,或者也可以是计算机软件领域从业人员公知并可使用的。在计算机可读记录介质的示例中,包括诸如硬盘、软盘及磁带的磁介质,诸如CD-ROM(只读光盘驱动器)、DVD(数字化视频光盘)的光记录介质,诸如软式光盘(floptical disk)的磁-光介质(magneto-optical media),及诸如只读存储器(ROM)、随机存储器(RAM)、快闪存储器等的为了存储及执行程序命令而特殊构成的硬件装置。在程序命令的示例中,不仅有借助于编译程序而制成的机器语言代码,还包括使用解释器等而能够借助于计算机运行的高级语言代码。所述硬件装置为了执行本发明的处理,可以构成为一个以上的软件模块而运转,反之亦然。
以上根据诸如具体构成要素等的特定事项和限定的实施例及附图,对本发明进行了说明,但这只是为了帮助更全面理解本发明而提供的,并非本发明限定于所述实施例,只要是本发明所属技术领域的技术人员,便可以从这种记载导出多样的修订及变形。
因此,本发明的思想不局限于所述说明的实施例而确定,后述权利要求书以及与该权利要求书等同地或等效地变形的所有内容均属于本发明的思想范畴。

Claims (8)

1.一种将借助于至少一个照相机而生成的至少一个图像和与之对应的借助于至少一个雷达或激光雷达而生成的至少一个点云图,在神经网络进行统合的方法,其特征在于,
所述神经网络包括初始运算层、变换层、统合层、及输出层,
所述方法包括:
(a)步骤,包括所述神经网络而构成的计算装置利用至少一个所述初始运算层,将借助于所述照相机而生成的至少一个原始图像,同与之对应的借助于所述雷达或所述激光雷达而生成的至少一个原始点云图进行统合,(i)将所述原始点云图包含的深度信息添加于所述原始图像,从而生成至少一个第一融合特征图,及(ii)将所述原始图像包含的颜色信息添加于所述原始点云图,从而生成至少一个第一融合点云图;
(b)步骤,所述计算装置利用至少一个所述变换层,对所述第一融合特征图应用至少一个第一变换运算,从而生成第1_1中间特征图,对所述第一融合点云图应用至少一个第二变换运算,从而生成第1_2中间特征图;
(c)步骤,所述计算装置利用至少一个所述统合层,统合所述第1_1中间特征图及所述第1_2中间特征图,从而生成第二融合特征图,对所述第二融合特征图应用至少一个映射运算,从而生成第二融合点云图;
(d)步骤,所述计算装置反复进行所述(b)步骤及所述(c)步骤,其结果,(i)利用所述变换层,对借助于所述统合层而生成的第N融合特征图应用至少一个所述第一变换运算,从而生成第N_1中间特征图,对借助于所述统合层而生成的第N融合点云图应用至少一个所述第二变换运算,从而生成第N_2中间特征图,(ii)使所述统合层,统合所述第N_1中间特征图及所述第N_2中间特征图,从而生成第N+1融合特征图,对所述第N+1融合特征图应用所述映射运算,从而生成第N+1融合点云图;及
(e)步骤,所述计算装置利用至少一个所述输出层,参照所述第N+1融合特征图及所述第N+1融合点云图中至少一部分,执行包括客体探测、语义分割及深度预测中至少一部分的、车辆自动驾驶所需运算中的至少一部分,
在所述(a)步骤中,
所述第一融合特征图包括(i)所述原始图像包含的、关于各像素的原始颜色信息,及(ii)参照邻接所述雷达或所述激光雷达的三维空间上各位置的原始坐标信息而获得的、关于所述各像素的所述深度信息,其中,所述各位置包含于所述原始点云图,
所述第一融合点云图包括(i)所述原始坐标信息,及(ii)参照所述原始颜色信息获得的、关于所述各位置的所述颜色信息,
在所述(b)步骤中,
通过对所述第一融合特征图应用包括至少一个卷积运算的所述第一变换运算而生成所述第1_1中间特征图,
通过对所述第一融合点云图应用包括至少一个神经网络运算、至少一个逆映射运算及至少一个卷积运算的所述第二变换运算而生成所述第1_2中间特征图,
所述逆映射运算是使(i)所述第一融合点云图包括的、所述颜色信息与三维坐标联动的形态的所述深度信息与(ii)所述第1_1中间特征图的各个特征联动的运算,
在所述(c)步骤中,
所述第二融合特征图通过将所述第1_1中间特征图及所述第1_2中间特征图沿通道方向级联而生成,
所述映射运算是使(i)所述第二融合特征图的各个特征值,与(ii)邻接所述雷达或所述激光雷达的三维空间上的各位置联动的运算。
2.根据权利要求1所述的方法,其特征在于,还包括:
(f)步骤,借助于所述输出层而生成所述神经网络的至少一个输出后,所述计算装置参照所述输出及与之对应的至少一个地面真值GT,学习所述神经网络的一个以上参数的至少一部分。
3.根据权利要求1所述的方法,其特征在于,
在所述(b)步骤中,
通过对所述第一融合特征图应用除至少一个卷积运算之外还包括至少一个修正线性单元ReLU运算及至少一个池化运算的所述第一变换运算而生成所述第1_1中间特征图。
4.一种测试方法,其特征在于,将借助于至少一个照相机而生成的至少一个图像和与之对应的借助于至少一个雷达或激光雷达而生成的至少一个点云图,在神经网络进行统合并利用其进行测试,
所述神经网络包括初始运算层、变换层、统合层、及输出层,
所述测试方法包括:
(a)步骤,(1)流程,包括所述神经网络而构成的学习装置利用至少一个所述初始运算层,将借助于所述照相机而生成的至少一个原始训练图像,同与之对应的借助于所述雷达或所述激光雷达而生成的至少一个训练用原始点云图进行统合,(i)将所述训练用原始点云图包含的训练用深度信息添加于所述原始训练图像,从而生成至少一个训练用第一融合特征图,及(ii)将所述原始训练图像包含的训练用颜色信息添加于所述训练用原始点云图,从而生成至少一个训练用第一融合点云图,其中,所述训练用第一融合特征图包括(i)所述原始训练图像包含的、关于各像素的训练用原始颜色信息,及(ii)参照邻接所述雷达或所述激光雷达的三维空间上各位置的训练用原始坐标信息而获得的、关于所述各像素的所述训练用深度信息,所述各位置包含于所述训练用原始点云图,所述训练用第一融合点云图包括(i)所述训练用原始坐标信息,及(ii)参照所述训练用原始颜色信息获得的、关于所述各位置的所述训练用颜色信息;(2)流程,所述学习装置利用至少一个所述变换层,对所述训练用第一融合特征图应用至少一个第一变换运算,从而生成训练用第1_1中间特征图,对所述训练用第一融合点云图应用至少一个第二变换运算,从而生成训练用第1_2中间特征图,其中,通过对所述训练用第一融合特征图应用包括至少一个卷积运算的所述第一变换运算而生成所述训练用第1_1中间特征图,通过对所述训练用第一融合点云图应用包括至少一个神经网络运算、至少一个逆映射运算及至少一个卷积运算的所述第二变换运算而生成所述训练用第1_2中间特征图,所述逆映射运算是使(i)所述训练用第一融合点云图包括的、所述训练用颜色信息与三维坐标联动的形态的所述训练用深度信息与(ii)所述训练用第1_1中间特征图的各个特征联动的运算;(3)流程,所述学习装置利用至少一个所述统合层,统合所述训练用第1_1中间特征图及所述训练用第1_2中间特征图,从而生成训练用第二融合特征图,对所述训练用第二融合特征图应用至少一个映射运算,从而生成训练用第二融合点云图,其中,所述训练用第二融合特征图通过将所述训练用第1_1中间特征图及所述训练用第1_2中间特征图沿通道方向级联而生成,所述映射运算是使(i)所述训练用第二融合特征图的各个特征值,与(ii)邻接所述雷达或所述激光雷达的三维空间上的各位置联动的运算;(4)流程,所述学习装置反复进行所述(2) 流程及所述(3)流程,其结果,(i)利用所述变换层,对借助于所述统合层而生成的训练用第N融合特征图应用至少一个所述第一变换运算,从而生成训练用第N_1中间特征图,对借助于所述统合层而生成的训练用第N融合点云图应用至少一个所述第二变换运算,从而生成训练用第N_2中间特征图,(ii)使所述统合层,统合所述训练用第N_1中间特征图及所述训练用第N_2中间特征图,从而生成训练用第N+1融合特征图,对所述训练用第N+1融合特征图应用所述映射运算,从而生成训练用第N+1融合点云图;(5)流程,所述学习装置使至少一个输出层,参照所述训练用第N+1融合特征图及所述训练用第N+1融合点云图中至少一部分,执行包括客体探测、语义分割及深度预测中至少一部分的、车辆自动驾驶所需运算中的至少一部分;(6)流程,借助于所述输出层而生成所述神经网络的至少一个输出后,所述学习装置参照所述输出及与之对应的至少一个地面真值GT,学习所述神经网络的一个以上参数的至少一部分;在执行了如上流程的状态下,
包括所述神经网络而构成的测试装置利用所述初始运算层,将借助于所述照相机而生成的至少一个原始测试图像,同与之对应的借助于所述雷达或所述激光雷达而生成的至少一个测试用原始点云图进行统合,(i)将所述测试用原始点云图包含的测试用深度信息添加于所述原始测试图像,从而生成至少一个测试用第一融合特征图,及(ii)将所述原始测试图像包含的测试用颜色信息添加于所述测试用原始点云图,从而生成至少一个测试用第一融合点云图,其中,所述测试用第一融合特征图包括(i)所述原始测试图像包含的、关于各像素的测试用原始颜色信息,及(ii)参照邻接所述雷达或所述激光雷达的三维空间上各位置的测试用原始坐标信息而获得的、关于所述各像素的所述测试用深度信息,所述各位置包含于所述测试用原始点云图,所述测试用第一融合点云图包括(i)所述测试用原始坐标信息,及(ii)参照所述测试用原始颜色信息获得的、关于所述各位置的所述测试用颜色信息;
(b)步骤,所述测试装置使至少一个变换层,对所述测试用第一融合特征图应用至少一个第一变换运算,从而生成测试用第1_1中间特征图,对所述测试用第一融合点云图应用至少一个第二变换运算,从而生成测试用第1_2中间特征图,其中,通过对所述测试用第一融合特征图应用包括至少一个卷积运算的所述第一变换运算而生成所述测试用第1_1中间特征图,通过对所述测试用第一融合点云图应用包括至少一个神经网络运算、至少一个逆映射运算及至少一个卷积运算的所述第二变换运算而生成所述测试用第1_2中间特征图,所述逆映射运算是使(i)所述测试用第一融合点云图包括的、所述测试用颜色信息与三维坐标联动的形态的所述测试用深度信息与(ii)所述测试用第1_1中间特征图的各个特征联动的运算;
(c)步骤,所述测试装置使所述统合层,统合所述测试用第1_1中间特征图及所述测试用第1_2中间特征图,从而生成测试用第二融合特征图,对所述测试用第二融合特征图应用至少一个映射运算,从而生成测试用第二融合点云图,其中,所述测试用第二融合特征图通过将所述测试用第1_1中间特征图及所述测试用第1_2中间特征图沿通道方向级联而生成,所述映射运算是使(i)所述测试用第二融合特征图的各个特征值,与(ii)邻接所述雷达或所述激光雷达的三维空间上的各位置联动的运算;
(d)步骤,所述测试装置反复进行所述(b)步骤及所述(c)步骤,其结果,(i)使所述变换层,对借助于所述统合层而生成的测试用第N融合特征图应用至少一个所述第一变换运算,从而生成测试用第N_1中间特征图,对借助于所述统合层而生成的测试用第N融合点云图应用至少一个所述第二变换运算,从而生成测试用第N_2中间特征图,(ii)使所述统合层,统合所述测试用第N_1中间特征图及所述测试用第N_2中间特征图,从而生成第N+1融合特征图,对所述测试用第N+1融合特征图应用所述映射运算,从而生成测试用第N+1融合点云图;
(e)步骤,所述测试装置使至少一个输出层,参照所述测试用第N+1融合特征图及所述测试用第N+1融合点云图中至少一部分,执行包括客体探测、语义分割及深度预测中至少一部分的、车辆自动驾驶所需运算中的至少一部分。
5.一种计算装置,其特征在于,包括神经网络,所述神经网络将借助于至少一个照相机而生成的至少一个图像和与之对应的借助于至少一个雷达或激光雷达而生成的至少一个点云图进行统合,
所述神经网络包括初始运算层、变换层、统合层、及输出层,
所述计算装置包括:
存储指令的至少一个存储器;及
至少一个处理器,所述至少一个处理器构成为运行用于执行如下流程的所述指令:(I)流程,利用至少一个所述初始运算层,将借助于所述照相机而生成的至少一个原始图像,同与之对应的借助于所述雷达或所述激光雷达而生成的至少一个原始点云图进行统合,(i)将所述原始点云图包含的深度信息添加于所述原始图像,从而生成至少一个第一融合特征图,及(ii)将所述原始图像包含的颜色信息添加于所述原始点云图,从而生成至少一个第一融合点云图;(II)流程,利用至少一个所述变换层,对所述第一融合特征图应用至少一个第一变换运算,从而生成第1_1中间特征图,对所述第一融合点云图应用至少一个第二变换运算,从而生成第1_2中间特征图;(III)流程,利用至少一个所述统合层,统合所述第1_1中间特征图及所述第1_2中间特征图,从而生成第二融合特征图,对所述第二融合特征图应用至少一个映射运算,从而生成第二融合点云图;(IV)流程,所述处理器反复进行所述(II)流程及所述(III)流程其结果,(i)使所述变换层,对借助于所述统合层而生成的第N融合特征图应用至少一个所述第一变换运算,从而生成第N_1中间特征图,对借助于所述统合层而生成的第N融合点云图应用至少一个所述第二变换运算,从而生成第N_2中间特征图,(ii)使所述统合层,统合所述第N_1中间特征图及所述第N_2中间特征图,从而生成第N+1融合特征图,对所述第N+1融合特征图应用所述映射运算,从而生成第N+1融合点云图;(V)流程,所述处理器使至少一个输出层,参照所述第N+1融合特征图及所述第N+1融合点云图中至少一部分,执行包括客体探测、语义分割及深度预测中至少一部分的、车辆自动驾驶所需运算中的至少一部分,
在所述(I)流程中,
所述第一融合特征图包括(i)所述原始图像包含的、关于各像素的原始颜色信息,及(ii)参照邻接所述雷达或所述激光雷达的三维空间上各位置的原始坐标信息获得的、关于所述各像素的所述深度信息,其中,所述各位置包含于所述原始点云图,
所述第一融合点云图包括(i)所述原始坐标信息及(ii)参照所述原始颜色信息获得的、关于所述各位置的所述颜色信息,
在所述(II)流程中,
通过对所述第一融合特征图应用包括至少一个卷积运算的所述第一变换运算而生成所述第1_1中间特征图,
通过对所述第一融合点云图应用包括至少一个神经网络运算、至少一个逆映射运算及至少一个卷积运算的所述第二变换运算而生成所述第1_2中间特征图,
所述逆映射运算是使(i)所述第一融合点云图包括的、所述颜色信息与三维坐标联动的形态的所述深度信息与(ii)所述第1_1中间特征图的各个特征联动的运算,
在所述(III)流程中,
通过将所述第1_1中间特征图及所述第1_2中间特征图沿通道方向级联而生成所述第二融合特征图,
所述映射运算是(i)使所述第二融合特征图的各个特征值与(ii)邻接所述雷达或所述激光雷达的三维空间上的各位置联动的运算。
6.根据权利要求5所述的计算装置,其特征在于,还执行:
(VI)流程,借助于所述输出层而生成了所述神经网络的至少一个输出,则所述处理器参照所述输出及与之对应的至少一个地面真值GT,学习所述神经网络的一个以上参数的至少一部分。
7.根据权利要求5所述的计算装置,其特征在于,
在所述(II)流程中,
通过对所述第一融合特征图应用除至少一个卷积运算之外还包括至少一个修正线性单元ReLU运算及至少一个池化运算的所述第一变换运算而生成所述第1_1中间特征图。
8.一种测试装置,包括神经网络而构成,使用所述神经网络将借助于至少一个照相机而生成的至少一个图像和与之对应的借助于至少一个雷达或激光雷达而生成的至少一个点云图在神经网络进行统合并利用其进行测试,其特征在于,
所述神经网络包括初始运算层、变换层、统合层、及输出层,
所述测试装置包括:
存储指令的至少一个存储器;及
至少一个处理器,所述至少一个处理器构成为运行用于执行如下 流程的指令:(1)流程,包括所述神经网络而构成的学习装置利用至少一个所述初始运算层,将借助于所述照相机而生成的至少一个原始训练图像,同与之对应的借助于所述雷达或所述激光雷达而生成的至少一个训练用原始点云图进行统合,(i)将所述训练用原始点云图包含的训练用深度信息添加于所述原始训练图像,从而生成至少一个训练用第一融合特征图,及(ii)将所述原始训练图像包含的训练用颜色信息添加于所述训练用原始点云图,从而生成至少一个训练用第一融合点云图,其中,所述训练用第一融合特征图包括(i)所述原始训练图像包含的、关于各像素的训练用原始颜色信息,及(ii)参照邻接所述雷达或所述激光雷达的三维空间上各位置的训练用原始坐标信息获得的、关于所述各像素的所述训练用深度信息,所述各位置包含于所述训练用原始点云图,所述训练用第一融合点云图包括(i)所述训练用原始坐标信息及(ii)参照所述训练用原始颜色信息获得的、关于所述各位置的所述训练用颜色信息;(2)流程,所述学习装置利用至少一个所述变换层,对所述训练用第一融合特征图应用至少一个第一变换运算,从而生成训练用第1_1中间特征图,对所述训练用第一融合点云图应用至少一个第二变换运算,从而生成训练用第1_2中间特征图,其中,通过对所述训练用第一融合特征图应用包括至少一个卷积运算的所述第一变换运算而生成所述训练用第1_1中间特征图,通过对所述训练用第一融合点云图应用包括至少一个神经网络运算、至少一个逆映射运算及至少一个卷积运算的所述第二变换运算而生成所述训练用第1_2中间特征图,所述逆映射运算是使(i)所述训练用第一融合点云图包括的、所述训练用颜色信息与三维坐标联动的形态的所述训练用深度信息与(ii)所述训练用第1_1中间特征图的各个特征联动的运算;(3)流程,所述学习装置利用至少一个所述统合层,统合所述训练用第1_1中间特征图及所述训练用第1_2中间特征图,从而生成训练用第二融合特征图,对所述训练用第二融合特征图应用至少一个映射运算,从而生成训练用第二融合点云图,其中,通过将所述训练用第1_1中间特征图及所述训练用第1_2中间特征图沿通道方向级联而生成所述训练用第二融合特征图,所述映射运算是(i)使所述训练用第二融合特征图的各个特征值与(ii)邻接所述雷达或所述激光雷达的三维空间上的各位置联动的运算;(4)流程,所述学习装置反复进行所述(2)流程及所述(3)流程,其结果,(i)使所述变换层,对借助于所述统合层而生成的训练用第N融合特征图应用至少一个所述第一变换运算,从而生成训练用第N_1中间特征图,对借助于所述统合层而生成的训练用第N融合点云图应用至少一个所述第二变换运算,从而生成训练用第N_2中间特征图,(ii)使所述统合层,统合所述训练用第N_1中间特征图及所述训练用第N_2中间特征图,从而生成训练用第N+1融合特征图,对所述训练用第N+1融合特征图应用所述映射运算,从而生成训练用第N+1融合点云图;(5)流程,所述学习装置使至少一个输出层,参照所述训练用第N+1融合特征图及所述训练用第N+1融合点云图中至少一部分,执行包括客体探测、语义分割及深度预测中至少一部分的、车辆自动驾驶所需运算中的至少一部分;(6)流程,借助于所述输出层而生成所述神经网络的至少一个输出后,所述学习装置参照所述输出及与之对应的至少一个地面真值GT,学习所述神经网络的一个以上参数的至少一部分;在执行了如上流程的状态下,所述至少一个处理器执行:(I)流程,利用所述初始运算层,将借助于所述照相机而生成的至少一个原始测试图像,同与之对应的借助于所述雷达或所述激光雷达而生成的至少一个测试用原始点云图进行统合,(i)将所述测试用原始点云图包含的测试用深度信息添加于所述原始测试图像,从而生成至少一个测试用第一融合特征图,及(ii)将所述原始测试图像包含的测试用颜色信息添加于所述测试用原始点云图,从而生成至少一个测试用第一融合点云图,其中,所述测试用第一融合特征图包括(i)所述原始测试图像包含的、关于各像素的测试用原始颜色信息,及(ii)参照邻接所述雷达或所述激光雷达的三维空间上各位置的测试用原始坐标信息获得的、关于所述各像素的所述测试用深度信息,所述各位置包含于所述测试用原始点云图,所述测试用第一融合点云图包括(i)所述测试用原始坐标信息及(ii)参照所述测试用原始颜色信息获得的、关于所述各位置的所述测试用颜色信息;(II)流程,利用所述变换层,对所述测试用第一融合特征图应用至少一个第一变换运算,从而生成测试用第1_1中间特征图,对所述测试用第一融合点云图应用至少一个第二变换运算,从而生成测试用第1_2中间特征图,其中,通过对所述测试用第一融合特征图应用包括至少一个卷积运算的所述第一变换运算而生成所述测试用第1_1中间特征图,通过对所述测试用第一融合点云图应用包括至少一个神经网络运算、至少一个逆映射运算及至少一个卷积运算的所述第二变换运算而生成所述测试用第1_2中间特征图,所述逆映射运算是使(i)所述测试用第一融合点云图包括的、所述测试用颜色信息与三维坐标联动的形态的所述测试用深度信息与(ii)所述测试用第1_1中间特征图的各个特征联动的运算;(III)流程,利用所述统合层,统合所述测试用第1_1中间特征图及所述测试用第1_2中间特征图,从而生成测试用第二融合特征图,对所述测试用第二融合特征图应用至少一个映射运算,从而生成测试用第二融合点云图,其中,通过将所述测试用第1_1中间特征图及所述测试用第1_2中间特征图沿通道方向级联而生成所述测试用第二融合特征图,所述映射运算是(i)使所述测试用第二融合特征图的各个特征值与(ii)邻接所述雷达或所述激光雷达的三维空间上的各位置联动的运算;(IV)流程,所述测试装置反复进行所述(II)流程及所述(III)流程,其结果,(i)使所述变换层,对借助于所述统合层而生成的测试用第N融合特征图应用至少一个所述第一变换运算,从而生成测试用第N_1中间特征图,对借助于所述统合层而生成的测试用第N融合点云图应用至少一个所述第二变换运算,从而生成测试用第N_2中间特征图,(ii)使所述统合层,统合所述测试用第N_1中间特征图及所述测试用第N_2中间特征图,从而生成第N+1融合特征图,对所述测试用第N+1融合特征图应用所述映射运算,从而生成测试用第N+1融合点云图;(V)流程,使所述输出层,参照所述测试用第N+1融合特征图及所述测试用第N+1融合点云图中至少一部分,执行包括客体探测、语义分割及深度预测中至少一部分的、车辆自动驾驶所需运算中的至少一部分。
CN202010058810.8A 2019-01-31 2020-01-19 在神经网络中统合图像及点云图的方法及装置 Active CN111507927B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16/262,984 US10408939B1 (en) 2019-01-31 2019-01-31 Learning method and learning device for integrating image acquired by camera and point-cloud map acquired by radar or LiDAR corresponding to image at each of convolution stages in neural network and testing method and testing device using the same
US16/262984 2019-01-31

Publications (2)

Publication Number Publication Date
CN111507927A CN111507927A (zh) 2020-08-07
CN111507927B true CN111507927B (zh) 2023-07-18

Family

ID=67844960

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010058810.8A Active CN111507927B (zh) 2019-01-31 2020-01-19 在神经网络中统合图像及点云图的方法及装置

Country Status (5)

Country Link
US (1) US10408939B1 (zh)
EP (1) EP3690482B1 (zh)
JP (1) JP6855090B2 (zh)
KR (1) KR102264394B1 (zh)
CN (1) CN111507927B (zh)

Families Citing this family (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US12123950B2 (en) 2016-02-15 2024-10-22 Red Creamery, LLC Hybrid LADAR with co-planar scanning and imaging field-of-view
CN110866526B (zh) * 2018-08-28 2024-10-01 北京三星通信技术研究有限公司 图像分割方法、电子设备及计算机可读存储介质
US10839543B2 (en) * 2019-02-26 2020-11-17 Baidu Usa Llc Systems and methods for depth estimation using convolutional spatial propagation networks
US11556000B1 (en) 2019-08-22 2023-01-17 Red Creamery Llc Distally-actuated scanning mirror
CN110619666B (zh) * 2019-09-20 2022-05-27 阿波罗智能技术(北京)有限公司 用于标定相机的方法及装置
EP3798977A1 (en) * 2019-09-26 2021-03-31 Robert Bosch GmbH Method for managing tracklets in a particle filter estimation framework
TWI730436B (zh) * 2019-10-02 2021-06-11 立積電子股份有限公司 辨識物體的方法、物體辨識系統及更新物體辨識系統中主要分類器的方法
CN111027559A (zh) * 2019-10-31 2020-04-17 湖南大学 一种基于扩张点卷积空间金字塔池化的点云语义分割方法
US10819923B1 (en) 2019-11-19 2020-10-27 Waymo Llc Thermal imaging for self-driving cars
CN110969689A (zh) * 2019-12-03 2020-04-07 上海眼控科技股份有限公司 点云特征提取方法、装置、计算机设备和存储介质
CN110929692B (zh) * 2019-12-11 2022-05-24 中国科学院长春光学精密机械与物理研究所 一种基于多传感器信息融合的三维目标检测方法及装置
KR102270827B1 (ko) * 2020-02-21 2021-06-29 한양대학교 산학협력단 360도 주변 물체 검출 및 인식 작업을 위한 다중 센서 데이터 기반의 융합 정보 생성 방법 및 장치
US11481862B2 (en) * 2020-02-26 2022-10-25 Beijing Jingdong Shangke Information Technology Co., Ltd. System and method for real-time, simultaneous object detection and semantic segmentation
CN111487596B (zh) * 2020-04-20 2022-06-21 航天新气象科技有限公司 风场探测数据融合方法、装置及电子设备
CN111352112B (zh) * 2020-05-08 2022-11-29 泉州装备制造研究所 基于视觉、激光雷达和毫米波雷达的目标检测方法
CN111649752B (zh) * 2020-05-29 2021-09-21 北京四维图新科技股份有限公司 拥堵路段的地图数据处理方法、装置以及设备
US11122248B1 (en) * 2020-07-20 2021-09-14 Black Sesame International Holding Limited Stereo vision with weakly aligned heterogeneous cameras
CN111860425B (zh) * 2020-07-30 2021-04-09 清华大学 一种深度多模态跨层交叉融合方法、终端设备及存储介质
JPWO2022044187A1 (zh) * 2020-08-27 2022-03-03
JP7389729B2 (ja) * 2020-09-10 2023-11-30 株式会社日立製作所 障害物検知装置、障害物検知システム及び障害物検知方法
EP4214682A4 (en) * 2020-11-16 2024-10-09 Waymo Llc MULTIMODAL 3D POSE ESTIMATION
WO2022126522A1 (zh) * 2020-12-17 2022-06-23 深圳市大疆创新科技有限公司 物体识别方法、装置、可移动平台以及存储介质
US11430218B2 (en) 2020-12-31 2022-08-30 Toyota Research Institute, Inc. Using a bird's eye view feature map, augmented with semantic information, to detect an object in an environment
CN112733753B (zh) * 2021-01-14 2024-04-30 江苏恒澄交科信息科技股份有限公司 结合卷积神经网络和数据融合的大桥方位识别方法及系统
US11798183B2 (en) * 2021-03-08 2023-10-24 Nvidia Corporation Machine learning techniques for predicting depth information in image data
CN113085568B (zh) * 2021-03-19 2022-10-14 浙江亚太智能网联汽车创新中心有限公司 一种双向行驶摆渡车的控制系统及双向行驶摆渡车
CN113065590B (zh) * 2021-03-26 2021-10-08 清华大学 一种基于注意力机制的视觉与激光雷达多模态数据融合方法
RU2767831C1 (ru) * 2021-03-26 2022-03-22 Общество с ограниченной ответственностью "Яндекс Беспилотные Технологии" Способы и электронные устройства для обнаружения объектов в окружении беспилотного автомобиля
CN113239726B (zh) * 2021-04-06 2022-11-08 北京航空航天大学杭州创新研究院 基于着色点云的目标检测方法、装置和电子设备
KR102336523B1 (ko) * 2021-04-27 2021-12-08 주식회사 모빌테크 점군 데이터를 이용하여 맵 정보를 향상 시키는 지도 제작 시스템
US12050660B2 (en) * 2021-05-05 2024-07-30 Motional Ad Llc End-to-end system training using fused images
WO2023283469A1 (en) * 2021-07-08 2023-01-12 Cyngn, Inc. Multi-channel object matching
US11527085B1 (en) * 2021-12-16 2022-12-13 Motional Ad Llc Multi-modal segmentation network for enhanced semantic labeling in mapping
CN114724120B (zh) * 2022-06-10 2022-09-02 东揽(南京)智能科技有限公司 基于雷视语义分割自适应融合的车辆目标检测方法及系统
CN114863380B (zh) * 2022-07-05 2022-10-25 高德软件有限公司 车道线识别方法、装置及电子设备
CN115098079B (zh) * 2022-08-25 2023-01-24 苏州浪潮智能科技有限公司 雷达检测模型确定方法、系统、电子设备及可读存储介质
DE102023003086A1 (de) * 2022-09-15 2024-03-21 Sew-Eurodrive Gmbh & Co Kg Verfahren zum Trainieren eines neuronalen Netzes zur Detektion eines Objekts und Verfahren zur Detektion eines Objekts mittels eines neuronalen Netzes
KR20240079863A (ko) * 2022-11-29 2024-06-05 주식회사 유엑스팩토리 포인트 클라우드 데이터 처리 장치 및 그 동작 방법
KR102618951B1 (ko) * 2023-06-20 2023-12-29 주식회사 모빌테크 시각적 매핑 방법 및 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램
CN117152330B (zh) * 2023-07-10 2024-05-28 中国地质大学(武汉) 一种基于深度学习的点云3d模型贴图方法和装置
KR102613536B1 (ko) * 2023-09-06 2023-12-12 한화시스템(주) 레이다 3d 맵과 스테레오 깊이 맵에 의한 근접 객체 거리/자세 정밀 계산 장치 및 그 방법
CN117710923B (zh) * 2023-12-14 2024-05-03 江苏镇扬汽渡有限公司 一种不良视线下汽渡辅助航行方法
CN117470249B (zh) * 2023-12-27 2024-04-02 湖南睿图智能科技有限公司 基于激光点云和视频图像融合感知的船舶防碰撞方法及系统
CN117934858B (zh) * 2024-03-21 2024-06-04 之江实验室 一种点云的处理方法、装置、存储介质及电子设备
CN118537566B (zh) * 2024-07-26 2024-10-08 成都航维智芯科技有限公司 3d点云分割方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017157967A1 (en) * 2016-03-14 2017-09-21 Imra Europe Sas Processing method of a 3d point cloud
CN107633220A (zh) * 2017-09-13 2018-01-26 吉林大学 一种基于卷积神经网络的车辆前方目标识别方法
CN108230329A (zh) * 2017-12-18 2018-06-29 孙颖 基于多尺度卷积神经网络的语义分割方法
US10169680B1 (en) * 2017-12-21 2019-01-01 Luminar Technologies, Inc. Object identification and labeling tool for training autonomous vehicle controllers

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2874118B1 (en) * 2013-11-18 2017-08-02 Dassault Systèmes Computing camera parameters
US10198655B2 (en) 2017-01-24 2019-02-05 Ford Global Technologies, Llc Object detection using recurrent neural network and concatenated feature map
US10705525B2 (en) * 2017-04-07 2020-07-07 Nvidia Corporation Performing autonomous path navigation using deep neural networks
US10509947B1 (en) 2017-04-11 2019-12-17 Zoox, Inc. Converting multi-dimensional data for image analysis
CN108732584B (zh) * 2017-04-17 2020-06-30 百度在线网络技术(北京)有限公司 用于更新地图的方法和装置
US10474161B2 (en) 2017-07-03 2019-11-12 Baidu Usa Llc High resolution 3D point clouds generation from upsampled low resolution lidar 3D point clouds and camera images
JP6695843B2 (ja) * 2017-09-25 2020-05-20 ファナック株式会社 装置、及びロボットシステム
CN112384947A (zh) * 2017-12-28 2021-02-19 英特尔公司 视觉雾
US10719744B2 (en) * 2017-12-28 2020-07-21 Intel Corporation Automated semantic inference of visual features and scenes

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017157967A1 (en) * 2016-03-14 2017-09-21 Imra Europe Sas Processing method of a 3d point cloud
CN107633220A (zh) * 2017-09-13 2018-01-26 吉林大学 一种基于卷积神经网络的车辆前方目标识别方法
CN108230329A (zh) * 2017-12-18 2018-06-29 孙颖 基于多尺度卷积神经网络的语义分割方法
US10169680B1 (en) * 2017-12-21 2019-01-01 Luminar Technologies, Inc. Object identification and labeling tool for training autonomous vehicle controllers

Also Published As

Publication number Publication date
EP3690482A1 (en) 2020-08-05
KR20200095333A (ko) 2020-08-10
JP6855090B2 (ja) 2021-04-07
EP3690482C0 (en) 2024-05-01
CN111507927A (zh) 2020-08-07
US10408939B1 (en) 2019-09-10
JP2020126607A (ja) 2020-08-20
KR102264394B1 (ko) 2021-06-15
EP3690482B1 (en) 2024-05-01

Similar Documents

Publication Publication Date Title
CN111507927B (zh) 在神经网络中统合图像及点云图的方法及装置
US10824947B2 (en) Learning method for supporting safer autonomous driving without danger of accident by estimating motions of surrounding objects through fusion of information from multiple sources, learning device, testing method and testing device using the same
US10776673B2 (en) Learning method and learning device for sensor fusion to integrate information acquired by radar capable of distance estimation and information acquired by camera to thereby improve neural network for supporting autonomous driving, and testing method and testing device using the same
US11087175B2 (en) Learning method and learning device of recurrent neural network for autonomous driving safety check for changing driving mode between autonomous driving mode and manual driving mode, and testing method and testing device using them
US10410120B1 (en) Learning method and testing method of object detector to be used for surveillance based on R-CNN capable of converting modes according to aspect ratios or scales of objects, and learning device and testing device using the same
KR102337376B1 (ko) 레인 마스크(Lane Mask)를 사용하여 후처리 없이 입력 이미지에 포함된 하나 이상의 차선을 검출하는 방법 및 장치, 그리고 이를 이용한 테스트 방법 및 테스트 장치
EP3686774B1 (en) Learning method and learning device for improving segmentation performance in road obstacle detection required to satisfy level 4 and level 5 of autonomous vehicles using laplacian pyramid network and testing method and testing device using the same
CN111476343B (zh) 利用掩蔽参数的方法和装置
KR102296509B1 (ko) 자율 주행 자동차의 레벨 4를 충족시키기 위해 영역의 클래스에 따라 모드를 전환하여 그리드 셀 별로 가중 컨벌루션 필터를 이용한 감시용 이미지 세그멘테이션 방법 및 장치, 그리고 이를 이용한 테스트 방법 및 테스트 장치
CN111507887B (zh) 对具有非rgb格式的图像客体进行探测学习的方法和装置
US10402978B1 (en) Method for detecting pseudo-3D bounding box based on CNN capable of converting modes according to poses of objects using instance segmentation and device using the same
EP3690725A1 (en) Method and device for seamless parameter switch by using location-specific algorithm selection to achieve optimized autonomous driving in each of regions
CN111507983B (zh) 利用周边汽车的图像自动标注基础汽车的图像的方法及装置
KR20200091318A (ko) 자율주행 자동차의 레벨 4를 충족시키기 위해 요구되는 hd 맵 업데이트에 이용될 적어도 하나의 어댑티브 로스 가중치 맵을 이용한 어텐션 드리븐 이미지 세그먼테이션 학습 방법 및 학습 장치, 그리고 이를 이용한 테스팅 방법 및 테스팅 장치
CN111507369B (zh) 自动行驶车辆空间学习方法及装置、测试方法及装置
CN111507161B (zh) 利用合并网络进行异质传感器融合的方法和装置
EP3690756B1 (en) Learning method and learning device for updating hd map by reconstructing 3d space by using depth estimation information and class information on each object, which have been acquired through v2x information integration technique, and testing method and testing device using the same
US20210407128A1 (en) Learnable localization using images
JP6856957B2 (ja) 写真スタイル変換を使用してランタイム入力の変換によりリアル世界で使用されるバーチャル世界で学習されたcnnを許容するための学習方法及び学習装置、そしてこれを利用したテスト方法及びテスト装置
US10373004B1 (en) Method and device for detecting lane elements to plan the drive path of autonomous vehicle by using a horizontal filter mask, wherein the lane elements are unit regions including pixels of lanes in an input image
CN112528808A (zh) 天体表面障碍物识别方法和装置
EP4064126B1 (en) Methods for training and testing perception network by using images obtained from multiple imaging devices having diverse specifications and learning device and testing device using the same
CN117341727A (zh) 一种基于图注意力的端到端自动驾驶行为规划方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant