CN111860425A - 一种深度多模态跨层交叉融合方法、终端设备及存储介质 - Google Patents

一种深度多模态跨层交叉融合方法、终端设备及存储介质 Download PDF

Info

Publication number
CN111860425A
CN111860425A CN202010752038.XA CN202010752038A CN111860425A CN 111860425 A CN111860425 A CN 111860425A CN 202010752038 A CN202010752038 A CN 202010752038A CN 111860425 A CN111860425 A CN 111860425A
Authority
CN
China
Prior art keywords
layer
fusion
feature
rgb
lidar
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010752038.XA
Other languages
English (en)
Other versions
CN111860425B (zh
Inventor
张新钰
李志伟
刘华平
李骏
柯锐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN202010752038.XA priority Critical patent/CN111860425B/zh
Publication of CN111860425A publication Critical patent/CN111860425A/zh
Application granted granted Critical
Publication of CN111860425B publication Critical patent/CN111860425B/zh
Priority to US17/325,235 priority patent/US11120276B1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/251Fusion techniques of input or preprocessed data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/60Image enhancement or restoration using machine learning, e.g. neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30248Vehicle exterior or interior
    • G06T2207/30252Vehicle exterior; Vicinity of vehicle

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种深度多模态跨层交叉融合方法、终端设备及存储介质,所述方法包括:获取包含车道线的RGB图像和点云数据,并进行预处理;将预处理后的RGB图像和点云数据输入预先构建和训练好的语义分割模型,输出图像分割结果;所述语义分割模型用于实现RGB图像和点云数据的跨层交叉融合。本发明的方法将当前模态的当前层的特征与另一模态的后续所有层特征进行融合,既能将相似的或者相近的特征进行融合,也能将不相似的或者不相近的特征进行融合,对特征进行充分全面的融合;所有融合连接通过一个可学习的参数进行控制,使得融合更加灵活和智能,不用预设和固定融合方式;能够提高图像分割的准确度。

Description

一种深度多模态跨层交叉融合方法、终端设备及存储介质
技术领域
本发明属于无人驾驶技术领域,具体涉及一种深度多模态跨层交叉融合方法、终端设备及存储介质。
背景技术
近年来,无人驾驶技术发展迅速,汽车依赖于多种传感器对周围环境进行感知,这就涉及到多传感器数据的融合,也即多模态融合。多模态数据的融合能够为汽车提供更加精确可靠的信息,提高驾驶的安全性以及鲁棒性。
由于在全天候全场景下单模态数据的有效性获取很难保证,导致基于单模态数据的自动驾驶算法稳定可靠运行面临很大挑战。而无人驾驶对安全性要求高,基于多模态数据融合的自动驾驶技术能够将不同类型传感器的优势互补,被广泛应用于自动驾驶领域。当前,国内外对多模态数据的融合方法有了一定的研究,主要分为前融合、中间融合、后融合以及交叉融合四种融合方式。但这几种方式都存在一定的问题,前融合直接将多个模态原始数据进行融合,没有考虑不同模态数据所处特征表示空间的差异性。中间融合将多个模态数据在中间某一个特征层次上进行融合,而融合的特征未必在一个特征表示空间上。后融合直接在决策层进行融合,即直接融合多个模态的最终结果,没有考虑各个层次特征之间交互融合。交叉融合则是对前、中、后多种融合方式的结合,但是在对应层次融合的特征还是不能保证在同一特征空间。不同模态数据间具有差异性、互补性是融合存在的意义,多模态数据融合对于最终感知结果的影响分为融合增强和融合抑制两种,但是应该在两个不同模态数据特征差异大还是小的时候进行融合会产生融合增强效果目前没有成熟的理论解释和支撑,同时对多模态数据如何进行融合以及融合时机的选择一直也未得到明确的解决。
发明内容
本发明的目的在于克服上述技术缺陷,提供了一种深度多模态跨层交叉融合方法,该融合方式更加灵活,充分考虑到了融合的特征是否在一个特征表示空间上,将特征的融合转化为神经网络参数的学习,让网络自己学习融合方式,使已有的前融合、中间融合、后融合以及交叉融合可以看作是跨层交叉融合的特例。
为实现上述目的,本发明的实施例1提供了一种深度多模态跨层交叉融合方法,所述方法包括:
获取包含车道线的RGB图像和点云数据,并进行预处理;
将预处理后的RGB图像和点云数据输入预先构建和训练好的语义分割模型,输出图像分割结果;所述语义分割模型用于实现RGB图像和点云数据的跨层交叉融合。
作为上述方法的一种改进,所述RGB图像通过安装在行驶车辆上的前向单目相机或前向单目摄像头获得;该RGB图像包括行驶车辆的行车方向正前方和路面上方的路面图像信息;所述点云数据通过安装在行驶车辆上激光雷达获得,该点云包含行驶车辆的行车方向正前方和路面上方的路面点云信息,其视角范围可通过处理与相机图像对齐;RGB图像和点云数据是同步采集的。
作为上述方法的一种改进,所述语义分割模型为由点云分支和图像分支组成的SkipCrossNet模型,该模型划分为三个融合单元:
第一融合单元,用于对点云数据和RGB图像进行交叉融合;
第二融合单元,用于进行点云Encoder阶段的特征与图像Encoder阶段的特征融合;和
第三融合单元,用于进行点云Decoder阶段的特征与图像Decoder阶段的特征融合。
作为上述方法的一种改进,所述第一融合单元的具体实现过程为:
图像对点云的融合为:
Lidarf=R0*RGB+Lidar
其中,Lidar为获取的点云数据,RGB为获取的RGB图像,Lidarf为融合之后的点云数据,R0为融合参数;
点云对图像的融合为:
RGBf=L0*Lidar+RGB
其中,RGBf为融合之后的图像,L0为融合参数;
将Lidarf和RGBf输出至第二融合单元。
作为上述方法的一种改进,所述第二融合单元包括N个融合阶段;第一融合阶段的输入为:第一融合子单元输出的Lidarf和RGBf;第i融合阶段的输入为第i-1融合阶段的输出;第N融合阶段的输出为第三融合单元的输入;每个融合阶段的融合次数预先设定;
当一个融合阶段的融合次数为M时,该融合阶段的具体实现过程为:
对于点云分支,将Lidar Block的第一层特征与RGB Block的第一层特征进行融合:
Lidar_LE_Feature2=S11*RGB_LE_feature1+Lidar_LE_feature1
其中,Lidar_LE_Feature2表示Lidar Block的第二层特征,Lidar_LD_feature1表示Lidar Block的第一层特征,即输入该融合阶段的点云特征;RGB_LD_feature1表示RGBBlock的第一层特征,即输入该融合阶段的图像特征,S11表示RGB Block的第一层特征与Lidar Block的第一层特征的融合参数;
当2≤m≤M-1时,将Lidar Block的第m层特征与RGB Block的前m层所有特征进行融合,得到Lidar Block的第m+1层特征Lidar_LE_Featurem
Figure BDA0002610326710000031
其中,RGB_LE_Featurek表示RGB Block的第k层特征,Sk,m表示RGB Block的第k层特征与Lidar Block的第m层特征的融合参数;Lidar_LE_Featurem表示Lidar Block的第m层特征;
对于图像分支,将RGB Block的第一层特征与Lidar Block的第一层特征进行融合:
RGB_LE_Feature2=T11*Lidar_LE_feature1+RGB_LE_feature1
其中,RGB_LE_Feature2表示RGB Block的第二层特征,T11表示Lidar Block的第一层特征与RGB Block的第一层特征的融合参数;
当2≤m≤M-1时,将RGB Block的第m层特征与Lidar Block的前m层所有特征进行融合,得到RGB Block的第m+1层特征RGB_LE_Featurem
Figure BDA0002610326710000032
其中,Lidar_LE_Featurek表示Lidar Block的第k层特征,Tk,m表示Lidar Block的第k层特征与RGB Block的第m层特征的融合参数;RGB_LE_Featurem表示RGB Block的第m层特征;
该融合阶段的输出为Lidar_LE_FeatureM和RGB_LE_FearureM
作为上述方法的一种改进,所述第三融合单元的具体实现过程为:
将点云Decoder阶段的第一层特征与图像Decoder阶段的第一层特征进行融合:
Lidar_LD_Feature2=R1*RGB_LD_feature1+Lidar_LD_feature1
其中,Lidar_LD_Feature2表示点云Decoder阶段的第二层特征,RGB_LD_feature1表示图像Decoder阶段的第一层特征,即第二融合单元输出的图像特征,Lidar_LD_feature1表示点云Decoder阶段的第一层特征,即第二融合单元输出的点云特征,R1表示图像Decoder阶段的第一层特征与点云Decoder阶段的第一层特征的融合参数;
将图像Decoder阶段的第一层特征与点云Decoder阶段的第一层特征进行融合:
RGB_LD_Feature2=L1*Lidar_LD_feature1+RGB_LD_feature1
其中,RGB_LD1_Featuref表示图像Decoder阶段的第二层特征;L1表示点云Decoder阶段的第一层特征与图形Decoder阶段的第一层特征的融合参数;
当2≤i≤N-1时,将点云Decoder阶段的第i层特征与图像Decoder阶段的第i层特征进行融合:
Lidar_LD_Featurei+1=Ri*RGB_LD_featurei+Lidar_LD_featurei
其中,Lidar_LD_Featurei+1表示点云Decoder阶段的第i+1层特征,RGB_LD_featurei表示图像Decoder阶段的第i层特征,Lidar_LD_featurei表示点云Decoder阶段的第i层特征,Ri表示图像Decoder阶段的第i层特征与点云Decoder阶段的第i层特征的融合参数;
将图像Decoder阶段的第i层特征与点云Decoder阶段的第i层特征进行融合:
RGB_LD_Featurei+1=Li*Lidar_LD_featurei+RGB_LD_featurei
其中,RGB_LD_Featurei+1表示图像Decoder阶段的第i+1层特征;Li表示点云Decoder阶段的第i层特征与图像Decoder阶段的第i层特征的融合参数;
第三融合单元的输出Output为:
Output=LN*Lidar_LD_FeatureN+RNRGB_LD_FeatureN
其中,Lidar_LD_FeatureN表示点云Decoder阶段的第N层特征,RGB_LD_FeatureN示图像Decoder阶段的第N层特征,LN和RN表示点云Decoder阶段第N层的融合参数。
作为上述方法的一种改进,所述方法还包括:建立训练集,对所述语义分割模型进行训练,得到其中的融合参数,融合参数的取值范围均为[0,1]。
本发明的实施例3提供了一种终端设备,包括:包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述的方法。
本发明的实施例4提供了一种存储介质,所述存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行上述的方法。
本发明的优势在于:
1、本发明的方法将当前模态的当前层的特征与另一模态的后续所有层特征进行融合,既能将相似的或者相近的特征进行融合,也能将不相似的或者不相近的特征进行融合,对特征进行充分全面的融合;所有融合连接通过可学习的参数进行控制,使得融合更加灵活和智能,不用预设和固定融合方式;
2、本发明的方法能够提高图像分割以及其他模式识别任务的准确度。
附图说明
图1为本发明实施例1提供的深度多模态跨层交叉融合方法的流程图;
图2为本发明实施例1提供的深度跨层交叉融合方法的结构图;
图3为本发明实施例1提供的SkipCrossNet模型结构图;
图4为本发明实施例1提供的跨层交叉融合的三个阶段的示意图;
图5为本发明实施例2提供的深度多模态跨层交叉融合系统的构成的示意图;
图6为本发明的实施例3提供的终端设备的示意图。
具体实施方式
对本申请技术方案进行清楚、完整地描述。应当理解,所描述的实施例仅仅是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
其次,此处所称的“一个实施例”或“实施例”是指可以包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例,也不是单独的或选择性的与其他实施例互相排斥的实施例。
如图1所示,本发明的实施例1提出了一种深度多模态跨层交叉融合方法,具体包括步骤:
S101:获取携带有车道线的单目RGB图像和点云数据;
采用安装在行驶车辆上的前向单目相机或前向单目摄像头采集路面图像信息。前向单目相机采集的是行驶车辆的行车方向正前方和路面上方的路面图像信息。即采集的路面图像信息是对应于采集车辆的行车方向的正前方和路面上方的信息的透视图。
在本示例中,路面图像信息和路面点云信息是同步采集的。即可以在行驶车辆上安装配置激光雷达和前向单目相机后,标定它们的相对位置姿态,同时开始对同一路面开始路面数据信息采集。
为了便于计算,本发明下述实施例中所涉及的点云,均为360°点云中正对车辆前方,即图像所在方向的部分。并且,由于相机和激光雷达已经完成标定,可以确定点云投影到像素平面的转换矩阵,以方便后续点云信息和图像信息的处理。由于点云数据视野一般大于相机图像,因此按相机图像视野范围和数据尺寸对点云投影图像进行裁剪,获得与RGB图像相同尺寸的点云图像数据。
S102:构造语义分割模型,对RGB图像和点云数据实现跨层交叉融合;
跨层交叉融合的跨层指的是点云语义分割分支中的当前层的特征不仅与图像分支的同层特征进行融合(这是前融合、中间融合、后融合以及交叉融合采用的方式),而且与图像分支的后续所有层特征进行融合,并且每一个融合连接都通过一个可学习参数来进行控制;交叉指的是点云分支的特征向图像分支进行融合,同时图像分支的特征也向点云分支进行融合;其中的融合参数为[0,1]之间的浮点数,为0表示不进行融合,否则表示进行融合。
跨层交叉融合在神经网络内进行,点云分支的每层特征与图像的对应层以及后续所有层的特征进行融合,相应地,图像分支的每层特征与点云分支的对应层以及后续所有层的特征进行融合,如图2所示。由于卷积神经网络在提取特征时,自然会形成特征金字塔,特征会逐层变抽象,比较靠近的几层特征会比较相近或者相似,因此在上述基础上,引入了融合阶段(域)的概念,即将整个跨层交叉融合模型划分为多个域,在域内进行跨层交叉融合,因为对于多个模态,一个区域内的特征更加相似或者相近,域的个数以及大小都可以调整,使得跨层交叉融合更灵活和高效,进一步改进了本发明。
语义分割模型可以是任何具有预测功能,或者称为语义分割功能、图像生成功能的神经网络模型,例如全卷积网络(FCN)等。示例性地,作为一种优选方案,考虑选用本发明提出的SkipCrossNet语义分割模型。本文都是基于该模型进行示例说明。如图3所示,SkipCrossNet语义分割模型由点云分支和图像分支组成,其中点云分支和图像分支都由编码器(Encoder)和解码器(Decoder)构成。其中,模型中的融合参数是可训练的参数,取值范围在[0,1]之间,如果为0,表示不需要进行融合,否则进行融合。
具体地,分为三个部分进行说明,如图4所示,分别是输入点云与输入图像的融合,点云Encoder阶段的特征与图像特征的融合,以及点云Decoder阶段的特征与图像Decoder阶段的特征的融合。
第一部分:输入点云与输入图像的融合。
融合采用的是按元素相加,加法不改变特征图的分辨率以及通道数,因此跨层交叉融合不会对网络的参数量几乎没有影响。
示例性地,根据图3,输入点云与图像,图像对点云的融合为:
Lidarf=R0*RGB+Lidar
其中Lidar为所述的点云,RGB为所述的图像,Lidarf为融合之后的点云,R0为融合参数。
点云对图像的融合为:
RGBf=L0*Lidar+RGB
其中,RGBf为融合之后的图像,L0为融合参数。
第二部分:点云Encoder阶段的特征与图像Encoder阶段的特征的融合。
示例性地,根据图3,获取上述融合后的Lidarf和RGBf,进行点云Encoder阶段的特征与图像Encoder阶段的特征融合。
首先,将点云Encoder阶段和图像Encoder阶段分为3个子阶段,如图3,分别是fusion stage 1、fusion stage 2和fusion stage 3,并不限定为3个,可以为多个。为了方便说明,跨层交叉融合在每个子阶段内进行。
示例性地,根据网络结构图3,在fusion stage 1内,Lidar Block包含有两层,RGBBlock包含有两层。下面对fusion stage1内的点云分支与图像分支分别作说明:
1、对于点云分支,Lidar Block的第一层特征与RGB Block的第一层特征进行融合,得到点云分支融合之后的第一层特征:
Lidar_L1_Featuref=R11*RGB_L1_feature+Lidar_L1_Feature
其中Lidar_L1_Featuref表示点云分支融合之后的第一层特征,Lidar_L1_Feature表示Lidar Block的第一层特征,RGB_L1_feature表示RGB Block的第一层特征,R11表示RGB Block的第一层特征与Lidar Block的第一层特征的融合参数。
Lidar Block的第二层特征与RGB Block的第一层特征和第二层特征进行融合,得到点云分支融合之后的第二层特征:
Lidar_L2_Featuref
=R12*RGB_L1_feature+R22*RGB_L2_feature+Lidar_L2_Feature
其中Lidar_L2_Featuref表示点云分支融合之后的第二层特征,RGB_L2_Feature表示RGB Block的第二层特征,Lidar_L2_feature表示Lidar Block的第二层特征,R12表示RGB Block的第一层特征与Lidar Block的第二层特征的融合参数,R22表示RGB Block的第二层特征与Lidar Block的第二层特征的融合参数。
2、对于图像分支,RGB Block的第一层特征与Lidar Block的第一层特征进行融合,得到图像分支融合之后的第一层特征:
RGB_L1_Featuref=L11*Lidar_L1_feature+RGB_L1_Feature
其中RGB_L1_Featuref表示图像分支融合之后的第一层特征,RGB_L1_Feature表示RGB Block的第一层特征,Lidar_L1_feature表示Lidar Block的第一层特征,L11表示Lidar Block的第一层特征与RGB Block的第一层特征的融合参数。
RGB Block的第二层特征与Lidar Block的第一层特征和第二层特征进行融合,得到图像分支融合之后的第二层特征:
RGB_L2_Featuref
=L12*Lidar_L1_feature+L22*Lidar_L2_feature+RGB_L2_Feature
其中RGB_L2_Featuref表示图像分支融合之后的第二层特征,RGB_L2_Feature表示RGB Block的第二层特征,Lidar_L2_feature表示Lidar Block的第二层特征,L12表示Lidar Block的第一层特征与RGB Block的第二层特征的融合参数,L22表示Lidar Block的第二层特征与RGB Block的第二层特征的融合参数。
第三部分:点云Decoder阶段的特征与图像Decoder阶段的特征的融合,最终得到语义分割结果。
如图3所示,点云Decoder阶段和图像Decoder阶段各有三层。下面对点云分支与图像分支分别作说明:
1、对于点云分支
点云Decoder阶段的第一层特征与图像Decoder阶段的第一层特征进行融合:
Lidar_LD1_Featuref=R1*RGB_LD1_feature+Lidar_LD1_feature
其中,Lidar_LD1_Featuref表示点云Decoder阶段融合之后的第一层特征,RGB_LD1_feature表示图像Decoder阶段的第一层特征,Lidar_LD1_feature表示点云Decoder阶段的第一层特征,R1表示图像Decoder阶段的第一层特征与点云Decoder阶段的第一层特征的融合参数。
点云Decoder阶段的第二层特征与图像Decoder阶段的第二层特征进行融合:
Lidar_LD2_Featuref=R2*RGB_LD2_feature+Lidar_LD2_feature
其中,Lidar_LD2_Featuref表示点云Decoder阶段融合之后的第二层特征,RGB_LD2_feature表示图像Decoder阶段的第二层特征,Lidar_LD2_feature表示点云Decoder阶段的第二层特征,R2表示图像Decoder阶段的第二层特征与点云Decoder阶段的第二层特征的融合参数。
2、图像分支
图像Decoder阶段的第一层特征与点云Decoder阶段的第一层特征进行融合:
RGB_LD1_Featuref=L1*Lidar_LD1_feature+RGB_LD1_feature
其中,RGB_LD1_Featuref表示图像Decoder阶段融合之后的第一层特征,Lidar_LD1_feature表示点云Decoder阶段的第一层特征,RGB_LD1_feature表示图像Decoder阶段的第一层特征,L1表示点云Decoder阶段的第一层特征与图形Decoder阶段的第一层特征的融合参数。
图像Decoder阶段的第二层特征RGB_Decoder_L2_Feature与点云Decoder阶段的第二层特征Lidar_Decoder_L2_Feature进行融合:
RGB_LD2_Featuref=L2*Lidar_LD2_feature+RGB_LD2_feature
其中,RGB_LD2_Featuref表示图像Decoder阶段融合之后的第二层特征,Lidar_LD2_feature表示点云Decoder阶段的第二层特征,RGB_LD2_feature表示图像Decoder阶段的第二层特征,L2表示点云Decoder阶段的第二层特征与图像Decoder阶段的第二层特征的融合参数。
对于Decoder阶段的第三层,是整个网络最后一层融合层:
Output=L3*Lidar_LD3_feature+R3RGB_LD3_feature
其中,Output表示第三层的融合输出,Lidar_LD3_feature表示点云Decoder阶段的第三层特征,RGB_LD3_feature表示图像Decoder阶段的第三层特征,L3表示点云Decoder阶段的第三层特征与图像Decoder阶段的第三层特征的融合参数。
Decoder阶段的融合次数与Encoder阶段的fusion stage的个数相同。
神经网络模型可以是经过预训练的,也可以是根据本地数据进行训练的。下面描述神经网络模型的示例性训练流程。
示例性地,对于预处理流程,规定点云的输入尺寸为(512,256,1),规定图像的输入尺寸为(512,256,3)。对点云和图像进行预设的裁剪,以符合网络的输入要求。
本领域技术人员可以理解为神经网络模型的训练过程,本文不对此进行赘述,简单描述如下。
示例性地,基于工具PyTorch实现的神经网络,将样本点云和图像添加到inputs列表中作为输入,设定网络的批处理数量、训练轮次数等需要人工预设的超参数后,开始训练,编码器将计算得到中间层的隐向量,再有解码器解码得到图像,同目标输出作比较,根据损失函数计算出损失值loss以后,在反向传播步骤更新网络参数,从而完成一轮训练。当训练到一定轮次后,损失值将不再下降或在某一个值附近振荡,此时可以停止训练。
示例性地,对于神经网络的损失函数和激活函数,本实施例采用常用的交叉熵作为损失函数,Softmax和ReLu作为激活函数。应当理解,这里也可以替换为其他函数,但可能会对神经网络的性能带来部分影响。
当神经网络完成训练后,可以开始测试新的图像。本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
S103:语义分割模型输出图像分割结果,可以用于车道线分割以及道路分割等。
实施例2
如图5所示,本发明的实施例2公开一种深度多模态跨层交叉融合系统,该系统包括点云采集模块、图像采集模块、跨层交叉融合模块和分割结果输出模块,其中:
点云采集模块,用于采集激光雷达点云数据;
图像采集模块,用于采集车载摄像头拍摄的路面上的RGB图像;
跨层交叉融合模块,用于通过语义分割模型对预处理后的RGB图像和点云数据进行交叉融合;所述语义分割模型用于实现RGB图像和点云数据的跨层交叉融合点云数据和RGB图像进行融合处理,包括三个子部分:输入点云与输入图像的融合,点云Encoder阶段的特征与图像Encoder阶段的特征的融合,以及点云Decoder阶段的特征与图像Decoder阶段的特征的融合;
分割结果输出模块,用于输出图像分割结果。
实施例3
如图6所示,本发明的实施例3提供的一种终端设备,包括:至少一个处理器301、存储器302、至少一个网络接口303和用户接口304。各个组件通过总线系统305耦合在一起。可理解,总线系统305用于实现这些组件之间的连接通信。总线系统305除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图中将各种总线都标为总线系统305。
其中,用户接口304可以包括显示器、键盘或者点击设备(例如,鼠标,轨迹球(track ball)、触感板或者触摸屏等。
可以理解,本公开实施例中的存储器302可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable ROM,PROM)、可擦除可编程只读存储器(Erasable PROM,EPROM)、电可擦除可编程只读存储器(Electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(Static RAM,SRAM)、动态随机存取存储器(Dynamic RAM,DRAM)、同步动态随机存取存储器(Synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data RateSDRAM,DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(Synchlink DRAM,SLDRAM)和直接内存总线随机存取存储器(DirectRambus RAM,DRRAM)。本文描述的存储器302旨在包括但不限于这些和任意其它适合类型的存储器。
在一些实施方式中,存储器302存储了如下的元素,可执行模块或者数据结构,或者他们的子集,或者他们的扩展集:操作系统3021和应用程序3022。
其中,操作系统3021,包含各种系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。应用程序3022,包含各种应用程序,例如媒体播放器(Media Player)、浏览器(Browser)等,用于实现各种应用业务。实现本公开实施例方法的程序可以包含在应用程序3022中。
在本公开实施例中,通过调用存储器302存储的程序或指令,具体的,可以是应用程序3022中存储的程序或指令,处理器301用于:
执行实施例1的方法的步骤。
实施例1的方法可以应用于处理器301中,或者由处理器301实现。处理器301可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器301中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器301可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(ApplicationSpecific Integrated Circuit,ASIC)、现场可编程门阵列(Field Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行实施例1中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合实施例1所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器302,处理器301读取存储器302中的信息,结合其硬件完成上述方法的步骤。
可以理解的是,本发明描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现,处理单元可以实现在一个或多个专用集成电路(Application Specific Integrated Circuits,ASIC)、数字信号处理器(Digital SignalProcessing,DSP)、数字信号处理设备(DSP Device,DSPD)、可编程逻辑设备(ProgrammableLogic Device,PLD)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。
对于软件实现,可通过执行本发明的功能模块(例如过程、函数等)来实现本发明技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。
实施例4
本发明实施例4提供一种非易失性存储介质,用于存储计算机程序。当该计算机程序被处理器执行时可以实现上述方法实施例中的各个步骤。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。本发明可以借助于包括有不同计算步骤的算法来实现,实施例中列举的简单的算法不应被视为对本发明所要求权利的限制。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (9)

1.一种深度多模态跨层交叉融合方法,所述方法包括:
获取包含车道线的RGB图像和点云数据,并进行预处理;
将预处理后的RGB图像和点云数据输入预先构建和训练好的语义分割模型,输出图像分割结果;所述语义分割模型用于实现RGB图像和点云数据的跨层交叉融合。
2.根据权利要求1所述的深度多模态跨层交叉融合方法,其特征在于,所述RGB图像通过安装在行驶车辆上的前向单目相机或前向单目摄像头获得;该RGB图像包括行驶车辆的行车方向正前方和路面上方的路面图像信息;所述点云数据通过安装在行驶车辆上激光雷达获得;RGB图像和点云数据是同步采集的。
3.根据权利要求1或2所述的深度多模态跨层交叉融合方法,其特征在于,所述语义分割模型为由点云分支和图像分支组成的SkipCrossNet模型,该模型划分为三个融合单元:
第一融合单元,用于对点云数据和RGB图像进行交叉融合;
第二融合单元,用于进行点云Encoder阶段的特征与图像Encoder阶段的特征融合;和
第三融合单元,用于进行点云Decoder阶段的特征与图像Decoder阶段的特征融合。
4.根据权利要求3所述的深度多模态跨层交叉融合方法,其特征在于,所述第一融合单元的具体实现过程为:
图像对点云的融合为:
Lidarf=R0*RGB+Lidar
其中,Lidar为获取的点云数据,RGB为获取的RGB图像,Lidarf为融合之后的点云数据,R0为融合参数;
点云对图像的融合为:
RGBf=L0*Lidar+RGB
其中,RGBf为融合之后的图像,L0为融合参数;
将Lidarf和RGBf输出至第二融合单元。
5.根据权利要求4所述的深度多模态跨层交叉融合方法,其特征在于,所述第二融合单元包括N个融合阶段;第一融合阶段的输入为:第一融合子单元输出的Lidarf和RGBf;第i融合阶段的输入为第i-1融合阶段的输出;第N融合阶段的输出为第三融合单元的输入;每个融合阶段的融合次数预先设定;
当一个融合阶段的融合次数为M时,该融合阶段的具体实现过程为:
对于点云分支,将Lidar Block的第一层特征与RGB Block的第一层特征进行融合:
Lidar_LE_Feature2=S11*RGB_LE_feature1+Lidar_LE_feature1
其中,Lidar_LE_Feature2表示Lidar Block的第二层特征,Lidar_LD_feature1表示Lidar Block的第一层特征,即输入该融合阶段的点云特征;RGB_LD_feature1表示RGBBlock的第一层特征,即输入该融合阶段的图像特征,S11表示RGB Block的第一层特征与Lidar Block的第一层特征的融合参数;
当2≤m≤M-1时,将Lidar Block的第m层特征与RGB Block的前m层所有特征进行融合,得到Lidar Block的第m+1层特征Lidar_LE_Featurem
Figure FDA0002610326700000021
其中,RGB_LE_Featurek表示RGB Block的第k层特征,Sk,m表示RGB Block的第k层特征与Lidar Block的第m层特征的融合参数;Lidar_LE_Featurem表示Lidar Block的第m层特征;
对于图像分支,将RGB Block的第一层特征与Lidar Block的第一层特征进行融合:
RGB_LE_Feature2=T11*Lidar_LE_feature1+RGB_LE_feature1
其中,RGB_LE_Feature2表示RGB Block的的第二层特征,T11表示Lidar Block的第一层特征与RGB Block的第一层特征的融合参数;
当2≤m≤M-1时,将RGB Block的第m层特征与Lidar Block的前m层所有特征进行融合,得到RGB Block的第m+1层特征RGB_LE_Featurem
Figure FDA0002610326700000022
其中,Lidar_LE_Featurek表示Lidar Block的第k层特征,Tk,m表示Lidar Block的第k层特征与RGB Block的第m层特征的融合参数;RGB_LE_Featurem表示RGB Block的第m层特征;
该融合阶段的输出为Lidar_LE_FeatureM和RGB_LE_FeatureM
6.根据权利要求5所述的深度多模态跨层交叉融合方法,其特征在于,所述第三融合单元的具体实现过程为:
将点云Decoder阶段的第一层特征与图像Decoder阶段的第一层特征进行融合:
Lidar_LD_Feature2=R1*RGB_LD_feature1+Lidar_LD_feature1
其中,Lidar_LD_Feature2表示点云Decoder阶段的第二层特征,RGB_LD_feature1表示图像Decoder阶段的第一层特征,即第二融合单元输出的图像特征,Lidar_LD_feature1表示点云Decoder阶段的第一层特征,即第二融合单元输出的点云特征,R1表示图像Decoder阶段的第一层特征与点云Decoder阶段的第一层特征的融合参数;
将图像Decoder阶段的第一层特征与点云Decoder阶段的第一层特征进行融合:
RGB_LD_Feature2=L1*Lidar_LD_feature1+RGB_LD_feature1
其中,RGB_LD1_Featuref表示图像Decoder阶段的第二层特征;L1表示点云Decoder阶段的第一层特征与图形Decoder阶段的第一层特征的融合参数;
当2≤i≤N-1时,将点云Decoder阶段的第i层特征与图像Decoder阶段的第i层特征进行融合:
Lidar_LD_Featurei+1=Ri*RGB_LD_featurei+Lidar_LD_featurei
其中,Lidar_LD_Featurei+1表示点云Decoder阶段的第i+1层特征,RGB_LD_featurei表示图像Decoder阶段的第i层特征,Lidar_LD_featurei表示点云Decoder阶段的第i层特征,Ri表示图像Decoder阶段的第i层特征与点云Decoder阶段的第i层特征的融合参数;
将图像Decoder阶段的第i层特征与点云Decoder阶段的第i层特征进行融合:
RGB_LD_Featurei+1=Li*Lidar_LD_featurei+RGB_LD_featurei
其中,RGB_LD_Featurei+1表示图像Decoder阶段的第i+1层特征;Li表示点云Decoder阶段的第i层特征与图像Decoder阶段的第i层特征的融合参数;
第三融合单元的输出Output为:
Output=LN*Lidar_LD_FeatureN+RNRGB_LD_FeatureN
其中,Lidar_LD_FeatureN表示点云Decoder阶段的第N层特征,RGB_LD_FeatureN示图像Decoder阶段的第N层特征,LN和RN表示点云Decoder阶段第N层的融合参数。
7.根据权利要求6所述的深度多模态跨层交叉融合方法,其特征在于,所述方法还包括:建立训练集,对所述语义分割模型进行训练,得到其中的融合参数,融合参数的取值范围均为[0,1]。
8.一种终端设备,其特征在于,包括:包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的方法。
9.一种存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行如权利要求1至7任一项所述的方法。
CN202010752038.XA 2020-07-30 2020-07-30 一种深度多模态跨层交叉融合方法、终端设备及存储介质 Active CN111860425B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202010752038.XA CN111860425B (zh) 2020-07-30 2020-07-30 一种深度多模态跨层交叉融合方法、终端设备及存储介质
US17/325,235 US11120276B1 (en) 2020-07-30 2021-05-20 Deep multimodal cross-layer intersecting fusion method, terminal device, and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010752038.XA CN111860425B (zh) 2020-07-30 2020-07-30 一种深度多模态跨层交叉融合方法、终端设备及存储介质

Publications (2)

Publication Number Publication Date
CN111860425A true CN111860425A (zh) 2020-10-30
CN111860425B CN111860425B (zh) 2021-04-09

Family

ID=72946573

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010752038.XA Active CN111860425B (zh) 2020-07-30 2020-07-30 一种深度多模态跨层交叉融合方法、终端设备及存储介质

Country Status (2)

Country Link
US (1) US11120276B1 (zh)
CN (1) CN111860425B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112464773A (zh) * 2020-11-19 2021-03-09 浙江吉利控股集团有限公司 一种道路类型识别方法、装置及系统
CN112819833A (zh) * 2021-02-05 2021-05-18 四川大学 一种大场景点云语义分割方法
CN114037834A (zh) * 2021-12-01 2022-02-11 清华大学 一种基于振动信号和rgb图像融合的语义分割方法及装置
CN114119671A (zh) * 2021-12-01 2022-03-01 清华大学 一种基于遮挡补偿的立体空间信息融合的多目标跟踪方法
CN114397638A (zh) * 2022-01-22 2022-04-26 深圳市神州云海智能科技有限公司 一种激光雷达数据中动态数据的过滤方法及系统
CN114678105A (zh) * 2022-03-21 2022-06-28 南京圣德医疗科技有限公司 一种结合人工智能技术自动计算球囊参数的方法
CN116115915A (zh) * 2023-02-16 2023-05-16 北京医智影科技有限公司 基于多级模态交叉融合网络的剂量验证方法

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR3084631B1 (fr) * 2018-07-31 2021-01-08 Valeo Schalter & Sensoren Gmbh Assistance a la conduite pour le controle longitudinal et/ou lateral d'un vehicule automobile
CN110866526A (zh) * 2018-08-28 2020-03-06 北京三星通信技术研究有限公司 图像分割方法、电子设备及计算机可读存储介质
CN115223067B (zh) * 2022-09-19 2022-12-09 季华实验室 应用于无人机的点云融合方法、装置、设备及存储介质
CN115690556B (zh) * 2022-11-08 2023-06-27 河北北方学院附属第一医院 一种基于多模态影像学特征的图像识别方法及系统
CN115861601B (zh) * 2022-12-20 2023-12-29 清华大学 一种多传感器融合感知方法及装置

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10452959B1 (en) * 2018-07-20 2019-10-22 Synapse Tehnology Corporation Multi-perspective detection of objects
CN110738200A (zh) * 2019-12-23 2020-01-31 广州赛特智能科技有限公司 车道线3d点云地图构建方法、电子设备及存储介质
CN110910437A (zh) * 2019-11-07 2020-03-24 大连理工大学 一种复杂室内场景的深度预测方法
CN110929696A (zh) * 2019-12-16 2020-03-27 中国矿业大学 一种基于多模态注意与自适应融合的遥感图像语义分割方法
CN111242015A (zh) * 2020-01-10 2020-06-05 同济大学 一种基于运动轮廓语义图预测行车危险场景的方法
US20200184718A1 (en) * 2018-12-05 2020-06-11 Sri International Multi-modal data fusion for enhanced 3d perception for platforms
CN111274976A (zh) * 2020-01-22 2020-06-12 清华大学 基于视觉与激光雷达多层次融合的车道检测方法及系统
CN111291676A (zh) * 2020-02-05 2020-06-16 清华大学 一种基于激光雷达点云和相机图像融合的车道线检测方法及装置和芯片
CN111339830A (zh) * 2020-01-20 2020-06-26 清华大学 一种基于多模态数据特征的目标分类方法

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9542626B2 (en) * 2013-09-06 2017-01-10 Toyota Jidosha Kabushiki Kaisha Augmenting layer-based object detection with deep convolutional neural networks
US9710714B2 (en) * 2015-08-03 2017-07-18 Nokia Technologies Oy Fusion of RGB images and LiDAR data for lane classification
EP3408848A4 (en) * 2016-01-29 2019-08-28 Pointivo Inc. SYSTEMS AND METHOD FOR EXTRACTING INFORMATION ON OBJECTS FROM SCENE INFORMATION
WO2018165038A1 (en) * 2017-03-06 2018-09-13 Miso Robotics, Inc. Augmented reality-enhanced food preparation system and related methods
EP3616126A4 (en) * 2017-04-27 2020-12-02 Hewlett-Packard Development Company, L.P. OBJECT RECOGNITION
US10614574B2 (en) * 2017-10-16 2020-04-07 Adobe Inc. Generating image segmentation data using a multi-branch neural network
US10824862B2 (en) * 2017-11-14 2020-11-03 Nuro, Inc. Three-dimensional object detection for autonomous robotic systems using image proposals
US11556777B2 (en) * 2017-11-15 2023-01-17 Uatc, Llc Continuous convolution and fusion in neural networks
US10175697B1 (en) * 2017-12-21 2019-01-08 Luminar Technologies, Inc. Object identification and labeling tool for training autonomous vehicle controllers
US20210118166A1 (en) * 2019-10-18 2021-04-22 Nvidia Corporation Pose determination using one or more neural networks
US10699430B2 (en) * 2018-10-09 2020-06-30 Industrial Technology Research Institute Depth estimation apparatus, autonomous vehicle using the same, and depth estimation method thereof
CA3028653C (en) * 2018-11-13 2021-02-16 Beijing Didi Infinity Technology And Development Co., Ltd. Methods and systems for color point cloud generation
US11494937B2 (en) * 2018-11-16 2022-11-08 Uatc, Llc Multi-task multi-sensor fusion for three-dimensional object detection
US10408939B1 (en) * 2019-01-31 2019-09-10 StradVision, Inc. Learning method and learning device for integrating image acquired by camera and point-cloud map acquired by radar or LiDAR corresponding to image at each of convolution stages in neural network and testing method and testing device using the same
US11204417B2 (en) * 2019-05-08 2021-12-21 GM Global Technology Operations LLC Selective attention mechanism for improved perception sensor performance in vehicular applications
US11494930B2 (en) * 2019-06-17 2022-11-08 SafeAI, Inc. Techniques for volumetric estimation
CN110264572B (zh) * 2019-06-21 2021-07-30 哈尔滨工业大学 一种融合几何特性与力学特性的地形建模方法及系统

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10452959B1 (en) * 2018-07-20 2019-10-22 Synapse Tehnology Corporation Multi-perspective detection of objects
US20200184718A1 (en) * 2018-12-05 2020-06-11 Sri International Multi-modal data fusion for enhanced 3d perception for platforms
CN110910437A (zh) * 2019-11-07 2020-03-24 大连理工大学 一种复杂室内场景的深度预测方法
CN110929696A (zh) * 2019-12-16 2020-03-27 中国矿业大学 一种基于多模态注意与自适应融合的遥感图像语义分割方法
CN110738200A (zh) * 2019-12-23 2020-01-31 广州赛特智能科技有限公司 车道线3d点云地图构建方法、电子设备及存储介质
CN111242015A (zh) * 2020-01-10 2020-06-05 同济大学 一种基于运动轮廓语义图预测行车危险场景的方法
CN111339830A (zh) * 2020-01-20 2020-06-26 清华大学 一种基于多模态数据特征的目标分类方法
CN111274976A (zh) * 2020-01-22 2020-06-12 清华大学 基于视觉与激光雷达多层次融合的车道检测方法及系统
CN111291676A (zh) * 2020-02-05 2020-06-16 清华大学 一种基于激光雷达点云和相机图像融合的车道线检测方法及装置和芯片

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
LIFENG AN ET AL: "Semantic segmentation-aided visual odometry for urban autonomous driving", 《INTERNATIONAL JOURNAL OF ADVANCED ROBOTIC SYSTEMS》 *
RAFAEL BAREA ET AL: "Vehicle Detection and Localization using 3D lidar point clous and image semantic segmentation", 《2018 IEEE INTERNATIONAL CONFERENCE ON INTELLIGENT TRANSPORTATION SYSTEMS》 *
俞斌等: "基于深度学习的点云分割方法综述", 《计算机工程与应用》 *
张新钰等: "面向自动驾驶目标检测的深度多模态融合技术", 《智能系统学报》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112464773A (zh) * 2020-11-19 2021-03-09 浙江吉利控股集团有限公司 一种道路类型识别方法、装置及系统
CN112819833A (zh) * 2021-02-05 2021-05-18 四川大学 一种大场景点云语义分割方法
CN112819833B (zh) * 2021-02-05 2022-07-12 四川大学 一种大场景点云语义分割方法
CN114037834A (zh) * 2021-12-01 2022-02-11 清华大学 一种基于振动信号和rgb图像融合的语义分割方法及装置
CN114119671A (zh) * 2021-12-01 2022-03-01 清华大学 一种基于遮挡补偿的立体空间信息融合的多目标跟踪方法
CN114119671B (zh) * 2021-12-01 2022-09-09 清华大学 一种基于遮挡补偿的立体空间信息融合的多目标跟踪方法
CN114397638A (zh) * 2022-01-22 2022-04-26 深圳市神州云海智能科技有限公司 一种激光雷达数据中动态数据的过滤方法及系统
CN114678105A (zh) * 2022-03-21 2022-06-28 南京圣德医疗科技有限公司 一种结合人工智能技术自动计算球囊参数的方法
CN114678105B (zh) * 2022-03-21 2023-10-17 南京圣德医疗科技有限公司 一种结合人工智能技术自动计算球囊参数的方法
CN116115915A (zh) * 2023-02-16 2023-05-16 北京医智影科技有限公司 基于多级模态交叉融合网络的剂量验证方法
CN116115915B (zh) * 2023-02-16 2023-07-14 北京医智影科技有限公司 基于多级模态交叉融合网络的剂量验证方法

Also Published As

Publication number Publication date
US11120276B1 (en) 2021-09-14
CN111860425B (zh) 2021-04-09

Similar Documents

Publication Publication Date Title
CN111860425B (zh) 一种深度多模态跨层交叉融合方法、终端设备及存储介质
CN112835037B (zh) 一种基于视觉和毫米波融合的全天候目标检测方法
CN107767384B (zh) 一种基于对抗训练的图像语义分割方法
CN113065590B (zh) 一种基于注意力机制的视觉与激光雷达多模态数据融合方法
CN111507927A (zh) 在神经网络中统合图像及点云图的方法及装置
CN111931929B (zh) 一种多任务模型的训练方法、装置及存储介质
CN110837811A (zh) 语义分割网络结构的生成方法、装置、设备及存储介质
US11940803B2 (en) Method, apparatus and computer storage medium for training trajectory planning model
CN111462129B (zh) 按网格单元利用加权卷积滤波器的图像分割方法及装置
Wang et al. End-to-end self-driving using deep neural networks with multi-auxiliary tasks
CN112990050B (zh) 一种基于轻量级特征金字塔结构的单目3d目标检测方法
CN113312983B (zh) 基于多模态数据融合的语义分割方法、系统、装置及介质
EP3710993B1 (en) Image segmentation using neural networks
CN114358128A (zh) 一种训练端到端的自动驾驶策略的方法
WO2021097845A1 (zh) 一种仿真场景的图像生成方法、电子设备和存储介质
CN112307978A (zh) 目标检测方法、装置、电子设备及可读存储介质
CN114663397A (zh) 可行驶区域的检测方法、装置、设备及存储介质
CN113139696B (zh) 一种轨迹预测模型构建方法及轨迹预测方法、装置
CN116861262B (zh) 一种感知模型训练方法、装置及电子设备和存储介质
CN114066899A (zh) 图像分割模型训练、图像分割方法、装置、设备及介质
KR102260246B1 (ko) 자율 주행을 위한 딥러닝 알고리즘 설정 방법 및 장치
CN116311137A (zh) 一种基于多表征集成学习的车道线检测方法
Pei et al. MWNet: object detection network applicable for different weather conditions
CN116503517B (zh) 长文本生成图像的方法及系统
CN112660161B (zh) 一种基于视觉时序推理的自动驾驶方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant