CN116385996B - 一种基于三维矩阵相机的多任务处理方法和装置 - Google Patents

一种基于三维矩阵相机的多任务处理方法和装置 Download PDF

Info

Publication number
CN116385996B
CN116385996B CN202310655312.5A CN202310655312A CN116385996B CN 116385996 B CN116385996 B CN 116385996B CN 202310655312 A CN202310655312 A CN 202310655312A CN 116385996 B CN116385996 B CN 116385996B
Authority
CN
China
Prior art keywords
point cloud
picture
feature
features
fusion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310655312.5A
Other languages
English (en)
Other versions
CN116385996A (zh
Inventor
李江昀
李哲
王家庆
林建祥
张妍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology Beijing USTB
Original Assignee
University of Science and Technology Beijing USTB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology Beijing USTB filed Critical University of Science and Technology Beijing USTB
Priority to CN202310655312.5A priority Critical patent/CN116385996B/zh
Publication of CN116385996A publication Critical patent/CN116385996A/zh
Application granted granted Critical
Publication of CN116385996B publication Critical patent/CN116385996B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/588Recognition of the road, e.g. of lane markings; Recognition of the vehicle driving pattern in relation to the road
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/098Distributed learning, e.g. federated learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • G06V10/763Non-hierarchical techniques, e.g. based on statistics of modelling distributions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/803Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of input or preprocessed data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/96Management of image or video recognition tasks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/35Categorising the entire scene, e.g. birthday party or wedding scene
    • G06V20/38Outdoor scenes
    • G06V20/39Urban scenes
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种基于三维矩阵相机的多任务处理方法和装置,包括:使用三维矩阵相机收集并预处理街景多模态数据,得到RGB图片数据、三维点云数据以及两者的对应关系;通过图片对应关系融合模块和点云对应关系融合模块,将对应关系分别与图片和点云进行融合;将融合了对应关系的图片数据和点云数据输入4个阶段的编码层,每个编码层包括图片特征下采样模块和图片特征提取模块、点云特征下采样模块和点云特征提取模块、对称注意力融合模块和通道空间门控模块,得到各阶段编码层的融合特征输出、最后阶段的图片特征输出和点云特征输出,这些特征输出用于后续多任务处理。本发明可以增强多模态数据的互补性和一致性,提高模型的整体性能。

Description

一种基于三维矩阵相机的多任务处理方法和装置
技术领域
本发明涉及三维点云处理技术领域,尤其涉及一种基于三维矩阵相机的多任务处理方法和装置。
背景技术
随着人工智能在自动驾驶领域的广泛应用,对于行驶过程中的街景信息的采集方法和街景目标的识别方法也得到了快速的发展。街景信息的采集,要求在远距离,大场景的环境特点下,实时高效的完成。目前,针对于街景信息的采集方法主要包括RGB单目相机和激光雷达,两种方法各有优缺点。RGB单目相机拥有高分辨率和丰富的纹理信息以及颜色信息,但是缺少准确的距离信息;激光点云能够得到准确的距离信息,描绘出街景目标的外轮廓,但是数据分布稀疏并且无序排列,同时缺少颜色和纹理信息。
目前对于街景多模态数据的获取,多采用RGB相机、激光雷达以及两者同时使用的方式。为了得到更丰富完整的街景多模态数据,通常会使用多个RGB相机获取多视角街景图片和激光雷达获得街景点云,多种设备大大增加了数据的采集成本。
目前的街景多模态数据标注大部分使用人工分别标注,需要分别对RGB图片数据和点云数据进行人工标注从而得到二维图片标注和三维点云标注,标注效率低且标注成本高,同时人工标注容易出错,实用性较差。
目前的街景目标识别方法集中于RGB图片目标识别和三维点云目标识别以及图片和点云融合识别三种方法。基于RGB图片的目标识别算法因为图片信息缺少距离信息无法确定目标的准确距离,而基于三维点云的目标识别算法因为三维点云的无序性和缺少颜色纹理信息的特点,具有计算量大和识别速度慢的缺点。
现在也出现了多模态信息融合的街景目标识别算法,这些算法将RGB图片和三维点云分别提取特征后再进行简单融合,存在有多模态信息利用不充分和多模态信息不一致的问题。
目前的街景多任务处理方法,多采用多个算法分别处理某一个任务,而非通过一个算法完成多任务的处理。使用多个算法,增加了算法复杂度,降低了数据的复用性,同时也忽略了多个任务之间的紧密联系,具有复杂度高,资源要求高等缺点。。
发明内容
本发明提供了一种基于三维矩阵相机的多任务处理方法和装置,用以基于三维矩阵相机进行多任务处理。所述技术方案如下:
一方面,提供了一种基于三维矩阵相机的多任务处理方法,包括:
S1、使用三维矩阵相机收集并预处理街景多模态数据,得到RGB图片数据、三维点云数据以及两者的对应关系;
S2、将所述RGB图片数据和所述对应关系,输入到图片对应关系融合模块,得到融合了对应关系的图片数据;将所述三维点云数据和所述对应关系,输入到点云对应关系融合模块,得到融合了对应关系的点云数据;
S3、将所述融合了对应关系的图片数据和所述融合了对应关系的点云数据输入依次连接的4个阶段的编码层,每个阶段的编码层包括图片特征下采样模块和图片特征提取模块、点云特征下采样模块和点云特征提取模块、对称注意力融合模块和通道空间门控模块,得到各阶段编码层的融合特征输出、最后阶段的图片特征输出和点云特征输出,这些特征输出用于后续多任务处理
其中,所述对称注意力融合模块包括:两个注意力模块和一个融合模块,对于所述图片特征提取模块输出的图片特征和所述点云特征提取模块输出的点云特征,分别作为查询向量Q进行交叉注意力计算,得到对应的融合特征,两种融合特征再经过双边融合得到第一阶段编码层的融合特征输出,具体包括:
注意力机制中,使用查询向量和键值向量进行特征相关性的提取和注意力特征的生成,使用所述图片特征提取模块输出的图片特征作为查询向量,所述点云特征提取模块输出的点云特征作为键值向量,进行图片对点云的注意力特征提取;对称的,使用所述点云特征提取模块输出的点云特征作为查询向量,所述图片特征提取模块输出的图片特征作为键值向量,进行点云对图片的注意力特征提取,得到的注意力特征通过全连接网络后与原特征拼接,得到图片融合特征和点云融合特征;
将所述图片融合特征和点云融合特征进行对称的特征融合,得到第一阶段编码层的融合特征输出,用于后续的多任务处理和下一阶段的特征计算,所述对称的特征融合包括:
所述点云融合特征通过两组并行的3×3深度可分离卷积、批归一化、1×1卷积生成点云分支特征和位置指导特征,所述图片融合特征通过两组并行的3×3深度可分离卷积、批归一化、1×1卷积以及Sigmoid激活函数生成图片分支特征和语义指导特征,将两者的分支特征和指导特征交叉相乘后,拼接得到第一阶段编码层的融合特征输出,具体如下公式:
其中,为所述图片特征提取模块输出的图片特征,/>为所述点云特征提取模块输出的点云特征,/>为图片融合特征,/>为点云融合特征,/>为图片分支特征,/>为点云分支特征,/>为图片分支的语义指导特征,/>为点云分支的位置指导特征,/>为查询向量,/>和/>为键值向量,下标/>代表图片,下标/>代表点云,/>为第一阶段编码层的融合特征输出,为交叉注意力;
所述通道空间门控模块包括通道门控和空间门控,通过通道注意力和空间注意力将所述第一阶段编码层的融合特征输出与所述图片特征提取模块输出的图片特征、所述第一阶段编码层的融合特征输出与所述点云特征提取模块输出的点云特征分别再次进行融合,具体包括:
对于所述图片特征提取模块输出的图片特征和所述点云特征提取模块输出的点云特征,首先进行通道门控操作,分别对两个输入特征进行空间全局平均池化提取通道特征,将通道特征拼接后经过各自的多层全连接神经网络和Sigmoid激活函数后得到各自的通道注意力特征向量,所述通道注意力特征向量指导进行通道门控特征融合,具体如下公式:
其中,为最大池化层,/>表示拼接后的通道特征,/>表示多层全连接神经网络,/>表示通道注意力特征向量,/>表示图片通道融合特征,/>表示点云通道融合特征;
通道门控融合后,进行空间门控融合,分别对和/>进行通道全局平均池化提取空间特征,将空间特征拼接后经过各自的卷积神经网络和Sigmoid激活函数后得到各自的空间注意力特征,所述空间注意力特征指导进行空间门控特征融合,具体如下公式:
其中,表示拼接后的通道特征,/>表示卷积神经网络,/>表示空间注意力特征,/>表示第一阶段的图片特征输出,/>表示第一阶段的点云特征输出,所述/>、/>作为后续阶段编码器的输入。
可选地,在预处理之后,所述方法还包括:对所述RGB图片数据和三维点云数据,进行标注,具体包括:
对RGB图片中的目标进行实例分割人工标注,得到图片实例分割标注结果;
根据所述图片实例分割标注结果,生成矩形框标注,得到图片目标检测标注结果,并额外标注目标的运动方向信息;
利用RGB图片与三维点云数据的对应关系,直接对RGB图片实例分割标注结果中的像素点对应的三维点云进行标注,赋予点云类别信息,得到三维点云的实例分割标注结果;
将RGB图片分割标注结果中的像素点对应的三维点云进行提取,得到目标三维点云集合,将目标三维点云集合进行聚类得到点云中心;
根据RGB图片标注的目标的运动方向信息、所述点云中心以及不同类别目标的已有先验立方体标注框尺寸,在三维点云中生成对应方向的三维立方体标注,基于所述三维立方体标注,进行角度微调,保证所述三维立方体标注包括目标三维点云集合,最终确定三维立方体标注,其方向与人工标注方向一致且立方体体积最小,得到三维点云的目标检测标注结果;
所述图片实例分割标注结果、所述图片目标检测标注结果、三维点云的实例分割标注结果、三维点云的目标检测标注结果,分别用于后续多任务处理的模型训练。
可选地,所述S2中将所述RGB图片数据和所述对应关系,输入到图片对应关系融合模块,得到融合了对应关系的图片数据;将所述三维点云数据和所述对应关系,输入到点云对应关系融合模块,得到融合了对应关系的点云数据,具体包括:
所述对应关系包括RGB图片中的像素与点云数据中点的对应关系,输入维度为X×5,X为对应关系的个数,每个对应关系通过RGB图片的像素点的i、j坐标值以及点云数据的x、y、z坐标值5个数值表示;
对于RGB图片输入,维度为H×W×3,H为图片高度,W为图片宽度,3为通道数,为了融合对应关系输入,将其维度扩充为H×W×6,扩充的三个维度用于填充点云数据的x、y、z坐标;
对于点云数据输入,维度为N×3,N是点云里点的个数,3是点的x、y、z坐标信息,为了融合对应关系输入,将其维度扩充为N×6,扩充的三个维度用于填充RGB图片数据的R、G、B颜色信息;
对于每个对应关系[i,j,x,y,z],在图片输入的i、j横纵坐标像素处,填充对应点的位置坐标x、y、z,在点云输入的x、y、z坐标点处,填充图片i、j横纵坐标对应的像素R、G、B颜色信息,完成对应关系输入与图片输入、对应关系输入与点云输入的分别融合。
可选地,所述S3中的所述图片特征下采样模块包括:一个归一化层和一个卷积核为2×2,步长为2的卷积层,进行融合了对应关系的图片数据尺寸的减小和通道数的增加,对于输入维度为[H,W,C]的特征图,H为特征图的高度,W为特征图的宽度,C为通道数,输出维度为[H/2,W/2,2C]的下采样特征图;
所述点云特征下采样模块包括:一个归一化层和一个卷积核为2×2×2,步长为2的三维卷积层,进行融合了对应关系的点云数据尺寸的减小和通道数的增加,对于输入维度为[H,W,D,C]的特征图,H为特征图的高度,W为特征图的宽度,D为特征图的深度,C为通道数,输出维度为[H/2,W/2,D/2,3C]的下采样特征图。
可选地,基于卷积神经网络和离散余弦变换构建图片分支的图片特征提取模块,所述图片特征提取模块,包括:一个深度可分离卷积层、一个深度可分离空洞卷积层、一个通道卷积层以及两个1×1卷积层组成;
其中,所述深度可分离卷积层卷积核大小为5×5,所述深度可分离空洞卷积层的卷积核大小为5×5,空洞率为3,所述通道卷积层卷积核大小为1×1,三者分别负责局部信息的提取,大感受野的信息提取以及通道信息提取,得到全面的特征注意力图,所述特征注意力图与所述深度可分离卷积层的输入进行点乘并通过层归一化LN后,得到注意力机制生成的特征图;两个1×1卷积负责特征图的维度变化,其输出的特征图经过批归一化BN后与输入特征图相加,构成残差连接,得到模块的初步特征输出;具体如下公式:
其中,为所述图片特征下采样模块输出的图片特征,/>为特征注意力图,/>为初步提取特征,/>为通道卷积层,/>为1×1卷积层,/>为深度可分离空洞卷积层,/>为深度可分离卷积层;
然后进行进一步的特征提取,使用离散余弦变换DCT利用频率信息提取注意力,所述DCT通过将一幅图像从像素域转换到频率域,获得图片的频域信息,通过人为选择的固定频率,提取图像频域的相关特征,对于输入维度为(H,W,C)的图像特征,H为图片高度,W为图片宽度,C为通道数,在通道维度均分为8份,分割特征维度为(H,W,C/8),使用人为设置的8个DCT基础频率分量,提取八个频域特征,其维度为(1×1×C/8),将频域特征拼接后,通过全连接网络,然后与所述初步提取特征相乘,得到融合频域注意力的图片输出特征,具体如下公式:
其中,下标表示的第/>个分割特征,/>表示离散余弦变换,/>表示分割操作,表示拼接操作,/>表示分割特征,/>表示离散余弦变换分割特征,/>表示所述图片特征提取模块的输出特征;
基于全连接神经网络,最大池化操作和离散余弦变换构建三维点云分支的点云特征提取模块,所述点云特征提取模块,具体包括:
针对每个体素中的N个点云输入,使用全连接层提取点云特征,然后使用全局最大池化提取体素点云的整体特征,同时使用DCT进行频域特征提取,计算点云中每两个点之间的欧氏距离,得到一个N×N的距离矩阵;对距离矩阵进行DCT变换,得到N×N的系数矩阵;选择矩阵左上角M×M的低频率的DCT系数作为频率特征;频率特征经过全连接层后,与原点云进行拼接,得到点云输出特征,具体如下公式:
其中,为所述点云特征下采样模块输出的点云特征,/>表示体素点云整体特征,/>表示体素点云低频特征,/>表示计算距离矩阵,/>表示离散余弦变换,表示选择低频特征,/>为所述点云提取模块输出的点云特征,/>为全连接层,/>为最大池化层。
另一方面,提供了一种基于三维矩阵相机的多任务处理装置,包括:
收集预处理模块,用于使用三维矩阵相机收集并预处理街景多模态数据,得到RGB图片数据、三维点云数据以及两者的对应关系;
对应关系融合模块,用于将所述RGB图片数据和所述对应关系,输入到图片对应关系融合模块,得到融合了对应关系的图片数据;将所述三维点云数据和所述对应关系,输入到点云对应关系融合模块,得到融合了对应关系的点云数据;
编码模块,用于将所述融合了对应关系的图片数据和所述融合了对应关系的点云数据输入依次连接的4个阶段的编码层,每个阶段的编码层包括图片特征下采样模块和图片特征提取模块、点云特征下采样模块和点云特征提取模块、对称注意力融合模块和通道空间门控模块,得到各阶段编码层的融合特征输出、最后阶段的图片特征输出和点云特征输出,这些特征输出用于后续多任务处理;
其中,所述对称注意力融合模块包括:两个注意力模块和一个融合模块,对于所述图片特征提取模块输出的图片特征和所述点云特征提取模块输出的点云特征,分别作为查询向量Q进行交叉注意力计算,得到对应的融合特征,两种融合特征再经过双边融合得到第一阶段编码层的融合特征输出,具体包括:
注意力机制中,使用查询向量和键值向量进行特征相关性的提取和注意力特征的生成,使用所述图片特征提取模块输出的图片特征作为查询向量,所述点云特征提取模块输出的点云特征作为键值向量,进行图片对点云的注意力特征提取;对称的,使用所述点云特征提取模块输出的点云特征作为查询向量,所述图片特征提取模块输出的图片特征作为键值向量,进行点云对图片的注意力特征提取,得到的注意力特征通过全连接网络后与原特征拼接,得到图片融合特征和点云融合特征;
将所述图片融合特征和点云融合特征进行对称的特征融合,得到第一阶段编码层的融合特征输出,用于后续的多任务处理和下一阶段的特征计算,所述对称的特征融合包括:
所述点云融合特征通过两组并行的3×3深度可分离卷积、批归一化、1×1卷积生成点云分支特征和位置指导特征,所述图片融合特征通过两组并行的3×3深度可分离卷积、批归一化、1×1卷积以及Sigmoid激活函数生成图片分支特征和语义指导特征,将两者的分支特征和指导特征交叉相乘后,拼接得到第一阶段编码层的融合特征输出,具体如下公式:
其中,为所述图片特征提取模块输出的图片特征,/>为所述点云特征提取模块输出的点云特征,/>为图片融合特征,/>为点云融合特征,/>为图片分支特征,/>为点云分支特征,/>为图片分支的语义指导特征,/>为点云分支的位置指导特征,/>为查询向量,/>和/>为键值向量,下标/>代表图片,下标/>代表点云,/>为第一阶段编码层的融合特征输出,为交叉注意力;
所述通道空间门控模块包括通道门控和空间门控,通过通道注意力和空间注意力将所述第一阶段编码层的融合特征输出与所述图片特征提取模块输出的图片特征、所述第一阶段编码层的融合特征输出与所述点云特征提取模块输出的点云特征分别再次进行融合,具体包括:
对于所述图片特征提取模块输出的图片特征和所述点云特征提取模块输出的点云特征,首先进行通道门控操作,分别对两个输入特征进行空间全局平均池化提取通道特征,将通道特征拼接后经过各自的多层全连接神经网络和Sigmoid激活函数后得到各自的通道注意力特征向量,所述通道注意力特征向量指导进行通道门控特征融合,具体如下公式:
其中,为最大池化层,/>表示拼接后的通道特征,/>表示多层全连接神经网络,/>表示通道注意力特征向量,/>表示图片通道融合特征,/>表示点云通道融合特征;
通道门控融合后,进行空间门控融合,分别对和/>进行通道全局平均池化提取空间特征,将空间特征拼接后经过各自的卷积神经网络和Sigmoid激活函数后得到各自的空间注意力特征,所述空间注意力特征指导进行空间门控特征融合,具体如下公式:
其中,表示拼接后的通道特征,/>表示卷积神经网络,/>表示空间注意力特征,/>表示第一阶段的图片特征输出,/>表示第一阶段的点云特征输出,所述/>、/>作为后续阶段编码器的输入。
另一方面,提供了一种电子设备,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由所述处理器加载并执行以实现上述基于三维矩阵相机的多任务处理方法。
另一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现上述基于三维矩阵相机的多任务处理方法。
上述技术方案,与现有技术相比至少具有如下有益效果:
1.利用三维矩阵相机采集数据的特点,即RGB图片与三维点云相互对应,将RGB图片的数据标注转化为三维点云标注,并保持数据的高度一致性,解决了街景数据人工分别标注成本高,效率低的问题。
2.设计改进深度神经网络用于街景的多任务处理,采集RGB图片数据、三维点云数据以及两者的对应关系,进行三者的融合,增强多模态数据的互补性和一致性,同时使用一个端到端模型进行多任务处理,大大增加了数据的复用性,降低了多任务处理的模型复杂性,同时利用不同任务之间的相互促进,提高模型的整体性能。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种基于三维矩阵相机的多任务处理方法流程图;
图2为本发明实施例提供的街景多模态数据标注方法流程图;
图3为本发明实施例提供的整体的多模态特征融合网络图;
图4为本发明实施例提供的图片特征提取模块图;
图5为本发明实施例提供的点云特征提取模块图;
图6为本发明实施例提供的对称注意力融合模块图;
图7为本发明实施例提供的通道空间门控模块图;
图8是本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例的附图,对本发明实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于所描述的本发明的实施例,本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明实施例提供了一种基于三维矩阵相机的多任务处理方法,包括:
S1、使用三维矩阵相机收集并预处理街景多模态数据,得到RGB图片数据、三维点云数据以及两者的对应关系;
S2、将所述RGB图片数据和所述对应关系,输入到图片对应关系融合模块,得到融合了对应关系的图片数据;将所述三维点云数据和所述对应关系,输入到点云对应关系融合模块,得到融合了对应关系的点云数据;
S3、将所述融合了对应关系的图片数据和所述融合了对应关系的点云数据输入依次连接的4个阶段的编码层,每个阶段的编码层包括图片特征下采样模块和图片特征提取模块、点云特征下采样模块和点云特征提取模块、对称注意力融合模块和通道空间门控模块,得到各阶段编码层的融合特征输出、最后阶段的图片特征输出和点云特征输出,这些特征输出用于后续多任务处理。
下面结合图2-图7,详细说明本发明实施例提供的一种基于三维矩阵相机的多任务处理方法,包括:
S1、使用三维矩阵相机收集并预处理街景多模态数据,得到RGB图片数据、三维点云数据以及两者的对应关系;
数据收集及预处理
使用三维矩阵相机(具体可以是车载三维矩阵相机),在多种街道行驶收集相应街景数据,得到RGB图片数据、三维点云数据以及两者的对应关系,对收集到的三维点云数据进行去噪滤波预处理。
三维矩阵相机作为一种纯视觉三维成像技术,具有远距离、大场景、高速度、高精度、实时化和被动式的特点;它对算力要求极低,极大节约了三维成像的综合运算成本。三维矩阵相机实现了在室内外任何可见光条件下,不受场景和被测物体限制、不依赖于任何辅助手段的通用式三维即时成像。三维矩阵相机可以在生成RGB图片的同时生成与图片中像素点对应的三维点云,使得RGB图片数据具有了一定的距离信息,而三维点云数据具有了一定的有序性。
数据标注
基于三维矩阵相机生成的街景多模态数据特点,在RGB图片数据进行标注后,可以通过RGB图片数据与三维点云数据的对应关系直接生成三维点云标注,生成的三维点云数据中不仅包括了单个点在三维坐标系下的x、y、z坐标,同时包括了与该点对应的RGB图片中的像素的二维图片坐标。仅通过三维矩阵相机获取街景多模态数据,就可以得到RGB图片、三维点云以及两者的对应关系,减少了街景数据获取的设备成本,同时利用三维矩阵相机采集数据的特点,利用人工RGB图片标注生成三维点云标注,高效的进行数据标注的转换,减少了现有分别进行数据标注的人工成本。
可选地,如图2所示,在预处理之后,所述方法还包括:对所述RGB图片数据和三维点云数据,进行标注,具体包括:
对RGB图片中的目标进行实例分割人工标注,得到图片实例分割标注结果;
图片实例分割标注结果,使用多边形对目标进行轮廓标注,人为预先规定需要标注的类别,然后对图片进行标注,使用点标注目标的轮廓形成闭合细致的多边形,并标注类别,标注结果为与原图相同尺寸的标注图像,对实例对应像素值进行了类别标注,其他不在规定类别中的像素为背景。
根据所述图片实例分割标注结果,生成矩形框标注,得到图片目标检测标注结果,并额外标注目标的运动方向信息;
所述运动方向例如汽车的行驶方向,可以为大致的方向,包括:前、后、左、右以及左前、左后、右前、右后。
图片目标检测标注结果,使用矩形框对目标进行标注,通过实例分割标注,获取每个实例的对应像素区域,计算得到像素区域的边界,即上下左右的坐标值,得到实例对应的目标检测矩形框标注,标注结果保存矩形框的位置和类别,位置为4个值,左上角2个坐标值和右下角2个坐标值,类别为1个值。
利用RGB图片与三维点云数据的对应关系,直接对RGB图片实例分割标注结果中的像素点对应的三维点云进行标注,赋予点云类别信息,得到三维点云的实例分割标注结果;
点云实例分割标注结果,使用点云集对目标点云进行标注,标注结果中,根据图片实例分割结果和图片点云对应关系,将相同实例图片像素的对应点进行类别标注,得到与点云数据格式相同的标注结果,在点云坐标值的基础上增加了点云的类别信息。
将RGB图片分割标注结果中的像素点对应的三维点云进行提取,得到目标三维点云集合,将目标三维点云集合进行聚类得到点云中心;
根据RGB图片标注的目标的运动方向信息、所述点云中心以及不同类别目标的已有先验立方体标注框尺寸,在三维点云中生成对应方向的三维立方体标注,基于所述三维立方体标注,进行角度微调,保证所述三维立方体标注包括所有目标点云,最终确定三维立方体标注,其方向与人工标注方向一致且立方体体积最小,保证立方体标注与目标最为贴合,减少标注内的非目标点云,得到三维点云的目标检测标注结果;
点云目标检测标注结果根据点云分割结果进行聚类等操作得到,使用立方体框对目标进行标注,标注结果保存立方体框的坐标、大小、类别和角度,坐标值为x、y、z坐标3个值,大小为长宽高3个值,类别和角度各1个值。
图片和点云的实例分割保存于原图尺寸一致的标注结果,通道数不一定一致,保存了类别信息;而目标检测则保存每个目标的检测框信息,于原图尺寸无关。
所述图片实例分割标注结果、所述图片目标检测标注结果、三维点云的实例分割标注结果、三维点云的目标检测标注结果,分别用于后续多任务处理的模型训练。
本发明实施例的数据标注包括但不限于目标检测,实例分割任务,通过图片与三维点云的对应关系,还可以扩展标注转换到车道线检测等等其他任务,完成更多任务的快速多模态数据标注。
3.数据集划分
将RGB图片数据、三维点云数据、两者对应关系以及标注结果构建成数据集,并按比例划分训练集和验证集。
4.训练集扩充
训练时通过随机上下翻转、随机左右翻转以及随机尺寸裁剪等进行数据增强,扩充训练集。
5.设计整体的多模态特征融合网络
整体的多模态特征融合网络的输入包括:RGB图片输入、三维点云输入以及两者的对应关系输入;
如图3所示,整体的多模态特征融合网络包括:图片对应关系融合模块、点云对应关系融合模块和4个阶段的编码层,每个编码层包括图片特征下采样模块和图片特征提取模块、点云特征下采样模块和点云特征提取模块、对称注意力融合模块和通道空间门控模块。通过图片对应关系融合模块和点云对应关系融合模块,将对应关系输入分别与图片输入和点云输入进行融合,然后通过图片和点云分别的下采样模块和特征提取模块进行各自的特征提取,对于不同分辨率的特征图,利用对称注意力融合模块和通道空间门控模块进行多模态特征融合,得到各阶段编码层的融合特征输出、最后阶段的图片特征输出和点云特征输出,这些特征输出用于后续多任务处理,下面详细说明:
S2、将所述RGB图片数据和所述对应关系,输入到图片对应关系融合模块,得到融合了对应关系的图片数据;将所述三维点云数据和所述对应关系,输入到点云对应关系融合模块,得到融合了对应关系的点云数据;
可选地,所述S2中将所述RGB图片数据和所述对应关系,输入到图片对应关系融合模块,得到融合了对应关系的图片数据;将所述三维点云数据和所述对应关系,输入到点云对应关系融合模块,得到融合了对应关系的点云数据,具体包括:
所述对应关系包括RGB图片中的像素与点云数据中点的对应关系,输入维度为X×5,X为对应关系的个数,每个对应关系通过RGB图片的像素点的i、j坐标值以及点云数据的x、y、z坐标值5个数值表示;
对于RGB图片输入,维度为H×W×3,H为图片高度,W为图片宽度,3为通道数,为了融合对应关系输入,将其维度扩充为H×W×6,扩充的三个维度用于填充点云数据的x、y、z坐标;
对于点云数据输入,维度为N×3,N是点云里点的个数,3是点的x、y、z坐标信息,为了融合对应关系输入,将其维度扩充为N×6,扩充的三个维度用于填充RGB图片数据的R、G、B颜色信息;
对于每个对应关系[i,j,x,y,z],在图片输入的i、j横纵坐标像素处,填充对应点的位置坐标x、y、z,在点云输入的x、y、z坐标点处,填充图片i、j横纵坐标对应的像素R、G、B颜色信息,完成对应关系输入与图片输入、对应关系输入与点云输入的分别融合。
S3、将所述融合了对应关系的图片数据和所述融合了对应关系的点云数据输入4个阶段的编码层,每个编码层包括图片特征下采样模块和图片特征提取模块、点云特征下采样模块和点云特征提取模块、对称注意力融合模块和通道空间门控模块,得到各阶段编码层的融合特征输出、最后阶段的图片特征输出和点云特征输出,这些特征输出用于后续多任务处理。
可选地,所述S3中的图片特征下采样模块包括:一个归一化层和一个卷积核为2×2,步长为2的卷积层,进行融合了对应关系的图片数据尺寸的减小和通道数的增加,对于输入维度为[H,W,C]的特征图,H为特征图的高度,W为特征图的宽度,C为通道数,输出维度为[H/2,W/2,2C]的下采样特征图;
将融合了对应关系的点云数据进行体素化处理,将点云划分为体素块,通过人为设置的体素块大小将三维空间分割成为有序堆叠的体素块,将点云分配到对应区域的体素块中,然后对所有体素块进行采样操作,对每个非空的体素块采样T个点,采样操作由所述点云特征下采样模块进行,所述点云特征下采样模块包括:一个归一化层和一个卷积核为2×2×2,步长为2的三维卷积层,进行融合了对应关系的点云数据尺寸的减小和通道数的增加,对于输入维度为[H,W,D,C]的特征图,H为特征图的高度,W为特征图的宽度,D为特征图的深度,C为通道数,输出维度为[H/2,W/2,D/2,3C]的下采样特征图。
可选地,基于卷积神经网络和离散余弦变换构建图片分支的图片特征提取模块,如图4所示,所述图片特征提取模块,包括:一个深度可分离卷积层、一个深度可分离空洞卷积层、一个通道卷积层以及两个1×1卷积层组成;
其中,所述深度可分离卷积层卷积核大小为5×5,所述深度可分离空洞卷积层的卷积核大小为5×5,空洞率为3,所述通道卷积层卷积核大小为1×1,三者分别负责局部信息的提取,大感受野的信息提取以及通道信息提取,得到全面的特征注意力图,所述特征注意力图与所述深度可分离卷积层的输入进行点乘并通过层归一化LN后,得到注意力机制生成的特征图;两个1×1卷积负责特征图的维度变化,丰富特征表征,其输出的特征图经过批归一化BN后与输入特征图相加,构成残差连接,防止梯度消失,得到模块的初步特征输出;具体如下公式:
其中,为所述图片特征下采样模块输出的图片特征,/>为特征注意力图,/>为初步提取特征,/>为通道卷积层,/>为1×1卷积层,/>为深度可分离空洞卷积层,/>为深度可分离卷积层;
然后进行进一步的特征提取,使用离散余弦变换DCT利用频率信息提取注意力,所述DCT通过将一幅图像从像素域转换到频率域,获得图片的频域信息,通过人为选择的固定频率,提取图像频域的相关特征,对于输入维度为(H,W,C)的图像特征,H为图片高度,W为图片宽度,C为通道数,在通道维度均分为8份,分割特征维度为(H,W,C/8),使用人为设置的8个DCT基础频率分量,提取八个频域特征,其维度为(1×1×C/8),将频域特征拼接后,通过全连接网络,然后与所述初步提取特征相乘,得到融合频域注意力的图片输出特征,具体如下公式:
其中,下标表示的第/>个分割特征,/>表示离散余弦变换,/>表示分割操作,表示拼接操作,/>表示分割特征,/>表示离散余弦变换分割特征,/>表示所述图片特征提取模块的输出特征;
基于全连接神经网络,最大池化操作和离散余弦变换构建三维点云分支的点云特征提取模块,如图5所示,所述点云特征提取模块,具体包括:
针对每个体素中的N个点云输入,使用全连接层提取点云特征,然后使用全局最大池化提取体素点云的整体特征,同时使用DCT进行频域特征提取,计算点云中每两个点之间的欧氏距离,得到一个N×N的距离矩阵;对距离矩阵进行DCT变换,得到N×N的系数矩阵;选择矩阵左上角M×M的低频率的DCT系数作为频率特征;频率特征经过全连接层后,与原点云进行拼接,得到点云输出特征,具体如下公式:
其中,为所述点云特征下采样模块输出的点云特征,/>表示体素点云整体特征,/>表示体素点云低频特征,/>表示计算距离矩阵,/>表示离散余弦变换,表示选择低频特征,/>为所述点云提取模块输出的点云特征,/>为全连接层,/>为最大池化层。
可选地,如图6所示,所述对称注意力融合模块包括:两个注意力模块和一个融合模块,对于所述图片特征提取模块输出的图片特征和所述点云特征融合模块输出的点云特征,分别作为查询向量Q进行交叉注意力计算,得到对应的融合特征,两种融合特征再经过双边融合得到第一阶段编码层的融合特征,具体包括:
注意力机制中,使用查询向量和键值向量进行特征相关性的提取和注意力特征的生成,使用图片特征作为查询向量,点云特征作为键值向量,进行图片对点云的注意力特征提取;对称的,使用点云特征作为查询向量,图片特征作为键值向量,进行点云对图片的注意力特征提取,得到的注意力特征通过全连接网络后与原特征拼接,得到图片融合特征和点云融合特征;
将所述图片融合特征和点云融合特征进行对称的特征融合,得到第一阶段编码层的融合特征输出,用于后续的多任务处理和下一阶段的特征计算,所述对称的特征融合包括:
所述点云融合特征通过两组并行的3×3深度可分离卷积、批归一化、1×1卷积生成点云分支特征和位置指导特征,所述图片融合特征通过两组并行的3×3深度可分离卷积、批归一化、1×1卷积以及Sigmoid激活函数生成图片分支特征和语义指导特征,将两者的分支特征和指导特征交叉相乘后,拼接得到第一阶段编码层的融合特征输出,具体如下公式:
其中,为所述图片特征提取模块输出的图片特征,/>为所述点云特征提取模块输出的的点云特征,/>为图片融合特征,/>为点云融合特征,/>为图片分支特征,/>为点云分支特征,/>为图片分支的语义指导特征,/>为点云分支的位置指导特征,/>为查询向量,/>和/>为键值向量,下标/>代表图片,下标/>代表点云,/>为第一阶段编码层的融合特征输出,为交叉注意力。
可选地,如图7所示,所述通道空间门控模块包括通道门控和空间门控,通过通道注意力和空间注意力将所述第一阶段编码层的融合特征输出与所述图片特征提取模块输出的图片特征、所述第一阶段编码层的融合特征输出与所述点云特征提取模块输出的点云特征分别再次进行融合,具体包括:
对于所述图片特征提取模块输出的图片特征和所述点云特征提取模块输出的点云特征,首先进行通道门控操作,分别对两个输入特征进行空间全局平均池化提取通道特征,将通道特征拼接后经过各自的多层全连接神经网络和Sigmoid激活函数后得到各自的通道注意力特征向量,所述通道注意力特征向量指导进行通道门控特征融合,具体如下公式:
其中,为最大池化层,/>表示拼接后的通道特征,/>表示多层全连接神经网络,/>表示通道注意力特征向量,/>表示图片通道融合特征,/>表示点云通道融合特征;/>
通道门控融合后,进行空间门控融合,分别对和/>进行通道全局平均池化提取空间特征,将空间特征拼接后经过各自的卷积神经网络和Sigmoid激活函数后得到各自的空间注意力特征,所述空间注意力特征指导进行空间门控特征融合,具体如下公式:
其中,表示拼接后的通道特征,/>表示卷积神经网络,/>表示空间注意力特征,/>表示第一阶段的图片特征输出,/>表示第一阶段的点云特征输出,所述/>、/>作为后续阶段编码器的输入。
本发明实施例的后续多任务处理可以包括:图片子任务和三维点云子任务。图片子任务中,目标检测网络输出图片中目标的位置信息和类别信息;语义分割网络输出图片中每个像素点的类别信息;实例分割网络输出每个实例的像素点类别信息。三维点云子任务中,三维目标检测输出点云中目标的位置信息,类别信息和方向信息;三维实例分割输出每个实例的点云类别信息。
整体网络训练时,首先训练单独的特征分支,使用图片分类任务和三维点云分类任务训练图片特征分支和点云特征分支,然后冻结浅层分支网络参数,使用划分的训练集,进行多任务的统一训练。
整体网络在划分的验证集进行验证,保留在验证集上效果最好的网络模型。
本发明实施例还提供了一种基于三维矩阵相机的多任务处理装置,包括:
收集预处理模块,用于使用三维矩阵相机收集并预处理街景多模态数据,得到RGB图片数据、三维点云数据以及两者的对应关系;
对应关系融合模块,用于将所述RGB图片数据和所述对应关系,输入到图片对应关系融合模块,得到融合了对应关系的图片数据;将所述三维点云数据和所述对应关系,输入到点云对应关系融合模块,得到融合了对应关系的点云数据;
编码模块,用于将所述融合了对应关系的图片数据和所述融合了对应关系的点云数据输入4个阶段的编码层,每个编码层包括图片特征下采样模块和图片特征提取模块、点云特征下采样模块和点云特征提取模块、对称注意力融合模块和通道空间门控模块,得到各阶段编码层的融合特征输出、最后阶段的图片特征输出和点云特征输出,这些特征输出用于后续多任务处理;
其中,所述对称注意力融合模块包括:两个注意力模块和一个融合模块,对于所述图片特征提取模块输出的图片特征和所述点云特征提取模块输出的点云特征,分别作为查询向量Q进行交叉注意力计算,得到对应的融合特征,两种融合特征再经过双边融合得到第一阶段编码层的融合特征输出,具体包括:
注意力机制中,使用查询向量和键值向量进行特征相关性的提取和注意力特征的生成,使用所述图片特征提取模块输出的图片特征作为查询向量,所述点云特征提取模块输出的点云特征作为键值向量,进行图片对点云的注意力特征提取;对称的,使用所述点云特征提取模块输出的点云特征作为查询向量,所述图片特征提取模块输出的图片特征作为键值向量,进行点云对图片的注意力特征提取,得到的注意力特征通过全连接网络后与原特征拼接,得到图片融合特征和点云融合特征;
将所述图片融合特征和点云融合特征进行对称的特征融合,得到第一阶段编码层的融合特征输出,用于后续的多任务处理和下一阶段的特征计算,所述对称的特征融合包括:
所述点云融合特征通过两组并行的3×3深度可分离卷积、批归一化、1×1卷积生成点云分支特征和位置指导特征,所述图片融合特征通过两组并行的3×3深度可分离卷积、批归一化、1×1卷积以及Sigmoid激活函数生成图片分支特征和语义指导特征,将两者的分支特征和指导特征交叉相乘后,拼接得到第一阶段编码层的融合特征输出,具体如下公式:
其中,为所述图片特征提取模块输出的图片特征,/>为所述点云特征提取模块输出的点云特征,/>为图片融合特征,/>为点云融合特征,/>为图片分支特征,/>为点云分支特征,/>为图片分支的语义指导特征,/>为点云分支的位置指导特征,/>为查询向量,/>和/>为键值向量,下标/>代表图片,下标/>代表点云,/>为第一阶段编码层的融合特征输出,为交叉注意力;
所述通道空间门控模块包括通道门控和空间门控,通过通道注意力和空间注意力将所述第一阶段编码层的融合特征输出与所述图片特征提取模块输出的图片特征、所述第一阶段编码层的融合特征输出与所述点云特征提取模块输出的点云特征分别再次进行融合,具体包括:
对于所述图片特征提取模块输出的图片特征和所述点云特征提取模块输出的点云特征,,首先进行通道门控操作,分别对两个输入特征进行空间全局平均池化提取通道特征,将通道特征拼接后经过各自的多层全连接神经网络和Sigmoid激活函数后得到各自的通道注意力特征向量,所述通道注意力特征向量指导进行通道门控特征融合,具体如下公式:
/>
其中,为最大池化层,/>表示拼接后的通道特征,/>表示多层全连接神经网络,/>表示通道注意力特征向量,/>表示图片通道融合特征,/>表示点云通道融合特征;
通道门控融合后,进行空间门控融合,分别对和/>进行通道全局平均池化提取空间特征,将空间特征拼接后经过各自的卷积神经网络和Sigmoid激活函数后得到各自的空间注意力特征,所述空间注意力特征指导进行空间门控特征融合,具体如下公式:
其中,表示拼接后的通道特征,/>表示卷积神经网络,/>表示空间注意力特征,/>表示第一阶段的图片特征输出,/>表示第一阶段的点云特征输出,所述/>、/>作为后续阶段编码器的输入。
本发明实施例提供的一种基于三维矩阵相机的多任务处理装置,其功能结构与本发明实施例提供的一种基于三维矩阵相机的多任务处理方法相对应,在此不再赘述。
图8是本发明实施例提供的一种电子设备800的结构示意图,该电子设备800可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(centralprocessing units,CPU)801和一个或一个以上的存储器802,其中,所述存储器802中存储有至少一条指令,所述至少一条指令由所述处理器801加载并执行以实现上述基于三维矩阵相机的多任务处理方法的步骤。
在示例性实施例中,还提供了一种计算机可读存储介质,例如包括指令的存储器,上述指令可由终端中的处理器执行以完成上述基于三维矩阵相机的多任务处理方法。例如,所述计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于三维矩阵相机的多任务处理方法,其特征在于,包括:
S1、使用三维矩阵相机收集并预处理街景多模态数据,得到RGB图片数据、三维点云数据以及两者的对应关系;
S2、将所述RGB图片数据和所述对应关系,输入到图片对应关系融合模块,得到融合了对应关系的图片数据;将所述三维点云数据和所述对应关系,输入到点云对应关系融合模块,得到融合了对应关系的点云数据;
S3、将所述融合了对应关系的图片数据和所述融合了对应关系的点云数据输入依次连接的4个阶段的编码层,每个阶段的编码层包括图片特征下采样模块和图片特征提取模块、点云特征下采样模块和点云特征提取模块、对称注意力融合模块和通道空间门控模块,得到各阶段编码层的融合特征输出、最后阶段的图片特征输出和点云特征输出,这些特征输出用于后续多任务处理;
其中,所述对称注意力融合模块包括:两个注意力模块和一个融合模块,对于所述图片特征提取模块输出的图片特征和所述点云特征提取模块输出的点云特征,分别作为查询向量Q进行交叉注意力计算,得到对应的融合特征,两种融合特征再经过双边融合得到第一阶段编码层的融合特征输出,具体包括:
注意力机制中,使用查询向量和键值向量进行特征相关性的提取和注意力特征的生成,使用所述图片特征提取模块输出的图片特征作为查询向量,所述点云特征提取模块输出的点云特征作为键值向量,进行图片对点云的注意力特征提取;使用所述点云特征提取模块输出的点云特征作为查询向量,所述图片特征提取模块输出的图片特征作为键值向量,进行点云对图片的注意力特征提取,得到的注意力特征通过全连接网络后与原特征拼接,得到图片融合特征和点云融合特征;
将所述图片融合特征和点云融合特征进行对称的特征融合,得到第一阶段编码层的融合特征输出,用于后续的多任务处理和下一阶段的特征计算,所述对称的特征融合包括:
所述点云融合特征通过两组并行的3×3深度可分离卷积、批归一化、1×1卷积生成点云分支特征和位置指导特征,所述图片融合特征通过两组并行的3×3深度可分离卷积、批归一化、1×1卷积以及Sigmoid激活函数生成图片分支特征和语义指导特征,将两者的分支特征和指导特征交叉相乘后,拼接得到第一阶段编码层的融合特征输出,具体如下公式:
其中,为所述图片特征提取模块输出的图片特征,/>为所述点云特征提取模块输出的点云特征,/>为图片融合特征,/>为点云融合特征,/>为图片分支特征,/>为点云分支特征,为图片分支的语义指导特征,/>为点云分支的位置指导特征,/>为查询向量,/>和/>为键值向量,下标/>代表图片,下标/>代表点云,/>为第一阶段编码层的融合特征输出,为交叉注意力;
所述通道空间门控模块包括通道门控和空间门控,通过通道注意力和空间注意力将所述第一阶段编码层的融合特征输出与所述图片特征提取模块输出的图片特征、所述第一阶段编码层的融合特征输出与所述点云特征提取模块输出的点云特征分别再次进行融合,具体包括:
对于所述图片特征提取模块输出的图片特征和所述点云特征提取模块输出的点云特征,首先进行通道门控操作,分别对两个输入特征进行空间全局平均池化提取通道特征,将通道特征拼接后经过各自的多层全连接神经网络和Sigmoid激活函数后得到各自的通道注意力特征向量,所述通道注意力特征向量指导进行通道门控特征融合,具体如下公式:
其中,为最大池化层,/>表示拼接后的通道特征,/>表示多层全连接神经网络,/>表示通道注意力特征向量,/>表示图片通道融合特征,/>表示点云通道融合特征;
通道门控融合后,进行空间门控融合,分别对和/>进行通道全局平均池化提取空间特征,将空间特征拼接后经过各自的卷积神经网络和Sigmoid激活函数后得到各自的空间注意力特征,所述空间注意力特征指导进行空间门控特征融合,具体如下公式:
其中,表示拼接后的通道特征,/>表示卷积神经网络,/>表示空间注意力特征,/>表示第一阶段的图片特征输出,/>表示第一阶段的点云特征输出,所述/>、/>作为后续阶段编码器的输入。
2.根据权利要求1所述的方法,其特征在于,在预处理之后,所述方法还包括:对所述RGB图片数据和三维点云数据,进行标注,具体包括:
对RGB图片中的目标进行实例分割人工标注,得到图片实例分割标注结果;
根据所述图片实例分割标注结果,生成矩形框标注,得到图片目标检测标注结果,并额外标注目标的运动方向信息;
利用RGB图片与三维点云数据的对应关系,直接对RGB图片实例分割标注结果中的像素点对应的三维点云进行标注,赋予点云类别信息,得到三维点云的实例分割标注结果;
将RGB图片分割标注结果中的像素点对应的三维点云进行提取,得到目标三维点云集合,将目标三维点云集合进行聚类得到点云中心;
根据RGB图片标注的目标的运动方向信息、所述点云中心以及不同类别目标的已有先验立方体标注框尺寸,在三维点云中生成对应方向的三维立方体标注,基于所述三维立方体标注,进行角度微调,保证所述三维立方体标注包括目标三维点云集合,最终确定三维立方体标注,其方向与人工标注方向一致且立方体体积最小,得到三维点云的目标检测标注结果;
所述图片实例分割标注结果、所述图片目标检测标注结果、三维点云的实例分割标注结果、三维点云的目标检测标注结果,分别用于后续多任务处理的模型训练。
3.根据权利要求1所述的方法,其特征在于,所述S2中将所述RGB图片数据和所述对应关系,输入到图片对应关系融合模块,得到融合了对应关系的图片数据;将所述三维点云数据和所述对应关系,输入到点云对应关系融合模块,得到融合了对应关系的点云数据,具体包括:
所述对应关系包括RGB图片中的像素与点云数据中点的对应关系,输入维度为X×5,X为对应关系的个数,每个对应关系通过RGB图片的像素点的i、j坐标值以及点云数据的x、y、z坐标值5个数值表示;
对于RGB图片输入,维度为H×W×3,H为图片高度,W为图片宽度,3为通道数,为了融合对应关系输入,将其维度扩充为H×W×6,扩充的三个维度用于填充点云数据的x、y、z坐标;
对于点云数据输入,维度为N×3,N是点云里点的个数,3是点的x、y、z坐标信息,为了融合对应关系输入,将其维度扩充为N×6,扩充的三个维度用于填充RGB图片数据的R、G、B颜色信息;
对于每个对应关系[i,j,x,y,z],在图片输入的i、j横纵坐标像素处,填充对应点的位置坐标x、y、z,在点云输入的x、y、z坐标点处,填充图片i、j横纵坐标对应的像素R、G、B颜色信息,完成对应关系输入与图片输入、对应关系输入与点云输入的分别融合。
4.根据权利要求1所述的方法,其特征在于,所述S3中的所述图片特征下采样模块包括:一个归一化层和一个卷积核为2×2,步长为2的卷积层,进行融合了对应关系的图片数据尺寸的减小和通道数的增加,对于输入维度为[H,W,C]的特征图,H为特征图的高度,W为特征图的宽度,C为通道数,输出维度为[H/2,W/2,2C]的下采样特征图;
所述点云特征下采样模块包括:一个归一化层和一个卷积核为2×2×2,步长为2的三维卷积层,进行融合了对应关系的点云数据尺寸的减小和通道数的增加,对于输入维度为[H,W,D,C]的特征图,H为特征图的高度,W为特征图的宽度,D为特征图的深度,C为通道数,输出维度为[H/2,W/2,D/2,3C]的下采样特征图。
5.根据权利要求1所述的方法,其特征在于,基于卷积神经网络和离散余弦变换构建图片分支的图片特征提取模块,所述图片特征提取模块,包括:一个深度可分离卷积层、一个深度可分离空洞卷积层、一个通道卷积层以及两个1×1卷积层组成;
其中,所述深度可分离卷积层卷积核大小为5×5,所述深度可分离空洞卷积层的卷积核大小为5×5,空洞率为3,所述通道卷积层卷积核大小为1×1,三者分别负责局部信息的提取,大感受野的信息提取以及通道信息提取,得到全面的特征注意力图,所述特征注意力图与所述深度可分离卷积层的输入进行点乘并通过层归一化LN后,得到注意力机制生成的特征图;两个1×1卷积负责特征图的维度变化,其输出的特征图经过批归一化BN后与输入特征图相加,构成残差连接,得到模块的初步特征输出;具体如下公式:
其中,为所述图片特征下采样模块输出的图片特征,/>为特征注意力图,/>为初步提取特征,/>为通道卷积层,/>为1×1卷积层,/>为深度可分离空洞卷积层,/>为深度可分离卷积层;
然后进行进一步的特征提取,使用离散余弦变换DCT利用频率信息提取注意力,所述DCT通过将一幅图像从像素域转换到频率域,获得图片的频域信息,通过人为选择的固定频率,提取图像频域的相关特征,对于输入维度为(H,W,C)的图像特征,H为图片高度,W为图片宽度,C为通道数,在通道维度均分为8份,分割特征维度为(H,W,C/8),使用人为设置的8个DCT基础频率分量,提取八个频域特征,其维度为(1×1×C/8),将频域特征拼接后,通过全连接网络,然后与所述初步提取特征相乘,得到融合频域注意力的图片输出特征,具体如下公式:
其中,下标表示的第/>个分割特征,/>表示离散余弦变换,/>表示分割操作,表示拼接操作,/>表示分割特征,/>表示离散余弦变换分割特征,/>表示所述图片特征提取模块的输出特征;
基于全连接神经网络,最大池化操作和离散余弦变换构建三维点云分支的点云特征提取模块,所述点云特征提取模块,具体包括:
针对每个体素中的N个点云输入,使用全连接层提取点云特征,然后使用全局最大池化提取体素点云的整体特征,同时使用DCT进行频域特征提取,计算点云中每两个点之间的欧氏距离,得到一个N×N的距离矩阵;对距离矩阵进行DCT变换,得到N×N的系数矩阵;选择矩阵左上角M×M的低频率的DCT系数作为频率特征;频率特征经过全连接层后,与原点云进行拼接,得到点云输出特征,具体如下公式:
其中,为所述点云特征下采样模块输出的点云特征,/>表示体素点云整体特征,表示体素点云低频特征,/>表示计算距离矩阵,/>表示离散余弦变换,表示选择低频特征,/>为所述点云提取模块输出的点云特征,/>为全连接层,/>为最大池化层。
6.一种基于三维矩阵相机的多任务处理装置,其特征在于,包括:
收集预处理模块,用于使用三维矩阵相机收集并预处理街景多模态数据,得到RGB图片数据、三维点云数据以及两者的对应关系;
对应关系融合模块,用于将所述RGB图片数据和所述对应关系,输入到图片对应关系融合模块,得到融合了对应关系的图片数据;将所述三维点云数据和所述对应关系,输入到点云对应关系融合模块,得到融合了对应关系的点云数据;
编码模块,用于将所述融合了对应关系的图片数据和所述融合了对应关系的点云数据输入依次连接的4个阶段的编码层,每个阶段的编码层包括图片特征下采样模块和图片特征提取模块、点云特征下采样模块和点云特征提取模块、对称注意力融合模块和通道空间门控模块,得到各阶段编码层的融合特征输出、最后阶段的图片特征输出和点云特征输出,这些特征输出用于后续多任务处理;
其中,所述对称注意力融合模块包括:两个注意力模块和一个融合模块,对于所述图片特征提取模块输出的图片特征和所述点云特征提取模块输出的点云特征,分别作为查询向量Q进行交叉注意力计算,得到对应的融合特征,两种融合特征再经过双边融合得到第一阶段编码层的融合特征输出,具体包括:
注意力机制中,使用查询向量和键值向量进行特征相关性的提取和注意力特征的生成,使用所述图片特征提取模块输出的图片特征作为查询向量,所述点云特征提取模块输出的点云特征作为键值向量,进行图片对点云的注意力特征提取;对称的,使用所述点云特征提取模块输出的点云特征作为查询向量,所述图片特征提取模块输出的图片特征作为键值向量,进行点云对图片的注意力特征提取,得到的注意力特征通过全连接网络后与原特征拼接,得到图片融合特征和点云融合特征;
将所述图片融合特征和点云融合特征进行对称的特征融合,得到第一阶段编码层的融合特征输出,用于后续的多任务处理和下一阶段的特征计算,所述对称的特征融合包括:
所述点云融合特征通过两组并行的3×3深度可分离卷积、批归一化、1×1卷积生成点云分支特征和位置指导特征,所述图片融合特征通过两组并行的3×3深度可分离卷积、批归一化、1×1卷积以及Sigmoid激活函数生成图片分支特征和语义指导特征,将两者的分支特征和指导特征交叉相乘后,拼接得到第一阶段编码层的融合特征输出,具体如下公式:
其中,为所述图片特征提取模块输出的图片特征,/>为所述点云特征提取模块输出的点云特征,/>为图片融合特征,/>为点云融合特征,/>为图片分支特征,/>为点云分支特征,为图片分支的语义指导特征,/>为点云分支的位置指导特征,/>为查询向量,/>和/>为键值向量,下标/>代表图片,下标/>代表点云,/>为第一阶段编码层的融合特征输出,为交叉注意力;
所述通道空间门控模块包括通道门控和空间门控,通过通道注意力和空间注意力将所述第一阶段编码层的融合特征输出与所述图片特征提取模块输出的图片特征、所述第一阶段编码层的融合特征输出与所述点云特征提取模块输出的点云特征分别再次进行融合,具体包括:
对于所述图片特征提取模块输出的图片特征和所述点云特征提取模块输出的点云特征,首先进行通道门控操作,分别对两个输入特征进行空间全局平均池化提取通道特征,将通道特征拼接后经过各自的多层全连接神经网络和Sigmoid激活函数后得到各自的通道注意力特征向量,所述通道注意力特征向量指导进行通道门控特征融合,具体如下公式:
其中,为最大池化层,/>表示拼接后的通道特征,/>表示多层全连接神经网络,/>表示通道注意力特征向量,/>表示图片通道融合特征,/>表示点云通道融合特征;
通道门控融合后,进行空间门控融合,分别对和/>进行通道全局平均池化提取空间特征,将空间特征拼接后经过各自的卷积神经网络和Sigmoid激活函数后得到各自的空间注意力特征,所述空间注意力特征指导进行空间门控特征融合,具体如下公式:
其中,表示拼接后的通道特征,/>表示卷积神经网络,/>表示空间注意力特征,/>表示第一阶段的图片特征输出,/>表示第一阶段的点云特征输出,所述/>、/>作为后续阶段编码器的输入。
7.一种电子设备,所述电子设备包括处理器和存储器,所述存储器中存储有指令,其特征在于,所述指令由所述处理器加载并执行以实现如权利要求1-5任一项所述基于三维矩阵相机的多任务处理方法。
8.一种计算机可读存储介质,所述存储介质中存储有指令,其特征在于,所述指令由处理器加载并执行以实现如权利要求1-5任一项所述基于三维矩阵相机的多任务处理方法。
CN202310655312.5A 2023-06-05 2023-06-05 一种基于三维矩阵相机的多任务处理方法和装置 Active CN116385996B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310655312.5A CN116385996B (zh) 2023-06-05 2023-06-05 一种基于三维矩阵相机的多任务处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310655312.5A CN116385996B (zh) 2023-06-05 2023-06-05 一种基于三维矩阵相机的多任务处理方法和装置

Publications (2)

Publication Number Publication Date
CN116385996A CN116385996A (zh) 2023-07-04
CN116385996B true CN116385996B (zh) 2023-10-10

Family

ID=86971625

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310655312.5A Active CN116385996B (zh) 2023-06-05 2023-06-05 一种基于三维矩阵相机的多任务处理方法和装置

Country Status (1)

Country Link
CN (1) CN116385996B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117409205B (zh) * 2023-12-13 2024-04-05 国网山东省电力公司济南供电公司 一种用于电力设备的异物搭挂检测和分割方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111815776A (zh) * 2020-02-04 2020-10-23 山东水利技师学院 综合机载和车载三维激光点云及街景影像的三维建筑物精细几何重建方法
US11222217B1 (en) * 2020-08-14 2022-01-11 Tsinghua University Detection method using fusion network based on attention mechanism, and terminal device
CN114398937A (zh) * 2021-12-01 2022-04-26 北京航空航天大学 一种基于混合注意力机制的图像-激光雷达数据融合方法
CN114419412A (zh) * 2022-03-31 2022-04-29 江西财经大学 一种用于点云配准的多模态特征融合方法与系统
CN115512132A (zh) * 2022-10-12 2022-12-23 吉林大学 基于点云数据与多视图图像数据融合的3d目标检测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111815776A (zh) * 2020-02-04 2020-10-23 山东水利技师学院 综合机载和车载三维激光点云及街景影像的三维建筑物精细几何重建方法
US11222217B1 (en) * 2020-08-14 2022-01-11 Tsinghua University Detection method using fusion network based on attention mechanism, and terminal device
CN114398937A (zh) * 2021-12-01 2022-04-26 北京航空航天大学 一种基于混合注意力机制的图像-激光雷达数据融合方法
CN114419412A (zh) * 2022-03-31 2022-04-29 江西财经大学 一种用于点云配准的多模态特征融合方法与系统
CN115512132A (zh) * 2022-10-12 2022-12-23 吉林大学 基于点云数据与多视图图像数据融合的3d目标检测方法

Also Published As

Publication number Publication date
CN116385996A (zh) 2023-07-04

Similar Documents

Publication Publication Date Title
Liu et al. Multiscale U-shaped CNN building instance extraction framework with edge constraint for high-spatial-resolution remote sensing imagery
Yang et al. A multi-task Faster R-CNN method for 3D vehicle detection based on a single image
CN107481279A (zh) 一种单目视频深度图计算方法
CN103729885A (zh) 多视角投影与三维注册联合的手绘场景三维建模方法
CN116385996B (zh) 一种基于三维矩阵相机的多任务处理方法和装置
CN112541460B (zh) 一种车辆再识别方法及系统
CN111126385A (zh) 一种可变形活体小目标的深度学习智能识别方法
Wang et al. An overview of 3d object detection
CN112767478B (zh) 一种基于表观指导的六自由度位姿估计方法
CN113256699B (zh) 图像处理方法、装置、计算机设备和存储介质
CN112734914A (zh) 一种增强现实视觉的图像立体重建方法及装置
Yazdan et al. Improving traffic sign recognition results in urban areas by overcoming the impact of scale and rotation
Tao et al. Indoor 3D semantic robot VSLAM based on mask regional convolutional neural network
CN111626241A (zh) 一种人脸检测方法及装置
CN109829421B (zh) 车辆检测的方法、装置及计算机可读存储介质
CN117274388B (zh) 基于视觉文本关系对齐的无监督三维视觉定位方法及系统
Seetharaman et al. A piecewise affine model for image registration in nonrigid motion analysis
CN114742996A (zh) 图像语义分割方法、装置、电子设备及存储介质
CN112668662A (zh) 基于改进YOLOv3网络的野外山林环境目标检测方法
Chen et al. Stingray detection of aerial images with region-based convolution neural network
CN114882372A (zh) 一种目标检测的方法及设备
Jiao et al. Individual building rooftop and tree crown segmentation from high-resolution urban aerial optical images
Sun et al. Light-YOLOv3: License plate detection in multi-vehicle scenario
Huang et al. Road scene segmentation via fusing camera and lidar data
Liu et al. Efficient stereo matching algorithm with edge-detecting

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant