CN116844129A - 多模态特征对齐融合的路侧目标检测方法、系统及装置 - Google Patents
多模态特征对齐融合的路侧目标检测方法、系统及装置 Download PDFInfo
- Publication number
- CN116844129A CN116844129A CN202310909012.5A CN202310909012A CN116844129A CN 116844129 A CN116844129 A CN 116844129A CN 202310909012 A CN202310909012 A CN 202310909012A CN 116844129 A CN116844129 A CN 116844129A
- Authority
- CN
- China
- Prior art keywords
- feature
- fusion
- image
- point
- image features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000004927 fusion Effects 0.000 title claims abstract description 98
- 238000001514 detection method Methods 0.000 title claims abstract description 86
- 238000000034 method Methods 0.000 claims abstract description 64
- 238000000605 extraction Methods 0.000 claims abstract description 11
- 239000011159 matrix material Substances 0.000 claims description 18
- 230000008569 process Effects 0.000 claims description 14
- 238000012545 processing Methods 0.000 claims description 13
- 238000013507 mapping Methods 0.000 claims description 8
- 230000002093 peripheral effect Effects 0.000 claims description 3
- 238000012549 training Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 4
- 230000003993 interaction Effects 0.000 abstract description 3
- 238000013527 convolutional neural network Methods 0.000 abstract description 2
- 230000002411 adverse Effects 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 15
- 230000006870 function Effects 0.000 description 11
- 238000004590 computer program Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000006399 behavior Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000007500 overflow downdraw method Methods 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000002441 reversible effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
- G06V20/588—Recognition of the road, e.g. of lane markings; Recognition of the vehicle driving pattern in relation to the road
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Abstract
本发明属于计算机视觉领域,具体涉及了多模态特征对齐融合的路侧目标检测方法、系统及装置,旨在解决不同模态数据存在时空不同步偏差,阻碍多模态特征融合的问题。本发明方法包括:采用卷积神经网络获取待处理图像的多尺度特征图组;采用PointNet++方法获取特征提取后的点特征集合;不同大小的点集对所述多尺度特征图组进行相邻区域搜索并融合;通过在特征融合模块增加通道级的信息交互层来引入全局信息;特征通过检测头生成三维边界框和分类评分,进行待处理点云的目标检测。本发明方法采用搜索对齐的方法,可以补偿不同模态数据存在时空不同步问题对多模态特征融合带来的不良影响,并准确获得检测结果。
Description
技术领域
本发明属于计算机视觉领域,具体涉及了一种多模态特征对齐融合的路侧目标检测方法、系统及装置。
背景技术
目标检测是自动驾驶和智能交通的核心组成部分。目前在道路交通场景下的三维目标检测任务中通常采用图像、点云等数据作为输入,预测道路上关键元素的几何和语义信息。基于图像的检测图像纹理信息丰富,但缺乏空间信息的维度,无法精确地恢复空间信息的位置。而激光雷达具有探测距离远、不受光线影响并且能够准确获得目标距离信息等优点,能够弥补相机图像的缺点。基于激光雷达的检测提供丰富的三维结构信息,但是存在点云稀疏的问题。因此,自动驾驶目标检测主要利用多传感器融合,特别是激光雷达和摄像机的融合。
不同模态的特征具有不同的表示方式,如何对齐多个模态特征进行融合是关键。无论是哪种方法,多模态数据融合的重要前提是把不同传感器的数据标定到同一个坐标系里,具体来说不同传感器的数据之间对应关系要准确。对于现实场景的交通数据集而言,由于数据集校准和同步过程存在误差,相机和激光雷达数据在时间和空间上存在不同步是很常见的问题。同时,我们还要考虑在特征级融合的方法中,不同模态的原始数据经过特征提取后由标定参数确定的对应关系会出现新的误差。由于这些特征经常被增强和聚合,融合中的一个关键挑战是如何有效地对齐来自两种模态转换后的特征。通过原始数据的标定参数获得粗糙的对应关系存在偏差时,结合两种模态优势的难度就大大增加。
近年来,多模态三维目标检测是一个关注热点。目前流行的多模态三维目标检测方法根据融合时机可以分为数据级、特征级和决策级融合。其中数据级融合主要融合原始或预处理的传感器数据,充分利用数据的原始信息,对计算量要求比较低,但不够灵活。决策级融合结合不同数据模态网络结构的决策输出,具有很高的灵活性和模块化,但计算成本较高,会丢失很多中间特征。特征级融合在中间层融合特征,使得网络能够学习不同特征表示,难点在于融合时机的选择。
多模态融合的重要前提是把不同传感器的数据或特征对齐。现存的方法大部分需要庞大的算力支持多模态信息的全局交互,并且基于体素等方法提取点云特征会损失部分信息。另一方面,这些方法在公开数据集上进行研究,很难界定特征对齐的效果和对检测性能的影响。我们对于存在时空不同步问题的路侧数据集的实验验证能补充该领域的研究。
基于此,本发明提供了一种多模态特征对齐融合的路侧目标检测方法、系统及装置。
发明内容
为了解决现有技术中的上述问题,即现有技术的研究数据集存在时空不同步偏差,阻碍多模态特征融合的问题,本发明提供了一种多模态特征对齐融合的路侧目标检测方法、系统及装置。
本发明的一方面,提出了一种多模态特征对齐融合的路侧目标检测方法,该方法包括:
步骤S10,获取待进行三维目标检测图像及其对应的点云数据;提取所述输入图像的多尺度特征图;提取所述点云数据的多个点特征集合;
步骤S20,分别将多个点特征集合中的点特征映射在所述多尺度特征图上,得到对应的坐标;根据所述坐标获取区域值,在所述多尺度特征图上获取多个增加了所述区域值后的区域内的图像特征,作为第一融合图像特征;
步骤S30,将所述多尺度特征图的图像特征、各第一融合图像特征分别与预构建的注意力权重矩阵融合,并将融合后的多尺度特征图的图像特征分别与融合后的各第一融合图像特征进行拼接,得到第二融合图像特征,将所述第二融合图像特征与对应的所述点特征集合进行拼接,得到增强的点云特征;
步骤S40,对各多尺度特征图的图像特征进行反卷积处理,并将反卷积处理后的图像特征进行拼接,得到拼接图像特征,将所述拼接图像与所述增强的点云特征融合,得到多模态特征融合点云;将所述多模态特征融合点云通过检测头生成三维边界框和分类评分,作为三维目标检测结果进行输出;所述检测头基于卷积层构建。
在一些优选的实施方式中,所述第一融合图像特征,其获取方法为:
步骤S21、获取所述点特征集合中的点云特征Fp在激光雷达坐标上的坐标点P,将所述P在所述多尺度特征上的映射作为关键点坐标Pc,以所述Pc为指针在所述多尺度特征图上进行搜索,得到对应的多尺度特征图的图像特征Fi;
步骤S22、在所述Pc周围增加区域值Poffset,将所述区域值Poffset与所述Pc的和为指针进行搜索,得到第一融合图像特征F′i:
Poffset=Rn×sigmoid(W1Fp);
P′c=Pc+Poffset;
其中,所述Rn是邻域范围参数,所述W1为可学习权重矩阵,P′c表示区域值Poffset与Pc的和。
在一些优选的实施方式中,所述增强的点云特征,其获取方法为:
步骤S31,将所述点特征集合中的点云特征Fp、所述图像特征Fi和所述F′i,通过多个可学习权重矩阵进行加权处理,得到注意力权重矩阵Wattention、W′attention:
Wattention=sigmoid(W4tanh(W2Fp+W3Fi));
W′attention=sigmoid(W4tanh(W2Fp+W3F′i));
其中,W2、W3和W4为可学习权重矩阵;
步骤S32,根据所述Wattention、所述W′attention、所述Fi、所述F′i得到增强的点云特征F′p:
F′p=C(C(WattentionFi∪W′attention F′i),Fp);
其中,C代表特征拼接操作,∪代表取并集操作。
在一些优选的实施方式中,所述拼接图像特征Fw,其获取方法为:
Fw=C(F1+∑Deconv(Fn));
其中,F1为最大尺度的图像特征,Fn为除F1以外的图像特征,Deconv代表反卷积操作。
在一些优选的实施方式中,所述多模态特征对齐融合的路侧目标检测方法对应的模型,其在训练过程中的损失函数包括分类损失、回归损失和强制一致性损失;
其中,所述分类损失采用Focal loss函数;通过Smooth L1 loss函数优化回归参数,对x轴、y轴和z轴方向这三个参数增加回归损失。
在一些优选的实施方式中,提取所述点云数据的多个点特征集合的方法包括PointNet++方法。
本发明的另一方面,提出了一种多模态特征对齐融合的路侧目标检测系统,基于一种多模态特征对齐融合的路侧目标检测方法,该系统包括:
提取模块,其配置为获取待进行三维目标检测图像及其对应的点云数据;提取所述输入图像的多尺度特征图;提取所述点云数据的多个点特征集合;
第一融合模块,其配置为分别将多个点特征集合中的点特征映射在所述多尺度特征图上,得到对应的坐标;根据所述坐标获取区域值,在所述多尺度特征图上获取多个增加了所述区域值后的区域内的图像特征,作为第一融合图像特征;
第二融合模块,其配置为将所述多尺度特征图的图像特征、各第一融合图像特征分别与预构建的注意力权重矩阵融合,并将融合后的多尺度特征图的图像特征分别与融合后的各第一融合图像特征进行拼接,得到第二融合图像特征,将所述第二融合图像特征与对应的所述点特征集合进行拼接,得到增强的点云特征;
结果输出模块,其配置为对各多尺度特征图的图像特征进行反卷积处理,并将反卷积处理后的图像特征进行拼接,得到拼接图像特征,将所述拼接图像与所述增强的点云特征融合,得到多模态特征融合点云;将所述多模态特征融合点云通过检测头生成三维边界框和分类评分,作为三维目标检测结果进行输出;所述检测头基于卷积层构建。
本发明的第三方面,提出了一种存储装置,其中存储有多条程序,所述程序适用于由处理器加载并执行以实现一种多模态特征对齐融合的路侧目标检测方法。
本发明的第四方面,提出了一种处理装置,包括处理器和存储装置;处理器,适用于执行各条程序;存储装置,适用于存储多条程序;所述程序适用于由处理器加载并执行以实现一种多模态特征对齐融合的路侧目标检测方法。
本发明的有益效果:
(1)本发明方法采用搜索对齐的方法,可以补偿不同模态数据存在时空不同步问题对多模态特征融合带来的偏差,具有较高的处理速度,并准确得到检测结果。
(2)本发明方法将输入图像通过卷积神经网络得到不同尺度的特征表示,在图像目标区域中寻找关键位置,并给予较高的权重与点云特征信息交互,有效地增强点云特征。
(3)本发明方法在特征融合时,引入特征全局信息更新权重,它将底层的计算资源集中在图像中更重要的部分上,更加充分保留了图像语义信息的有效性。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本发明多模态特征对齐融合的路侧目标检测方法的流程示意图;
图2是本发明多模态特征对齐融合的路侧目标检测方法一种实施例的图像特征提取模块示例图;
图3是本发明多模态特征对齐融合的路侧目标检测方法一种实施例的多模态特征搜索对齐模块示例图;
图4是本发明多模态特征对齐融合的路侧目标检测方法一种实施例的多模态特征融合模块全通道融合示例图;
图5是本发明多模态特征对齐融合的路侧目标检测方法一种实施例的模型整体结构示例图;
图6是本发明多模态特征对齐融合的路侧目标检测方法一种实施例的目标检测结果示例图;
图7是用于实现本申请方法、系统、装置实施例的服务器的计算机系统的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
如图1-6所示,参见图1,本发明第一实施例,提供一种多模态特征对齐融合的路侧目标检测方法,该方法包括:
步骤S10,获取待进行三维目标检测图像及其对应的点云数据;提取所述输入图像的多尺度特征图;提取所述点云数据的多个点特征集合;
步骤S20,分别将多个点特征集合中的点特征映射在所述多尺度特征图上,得到对应的坐标;根据所述坐标获取区域值,在所述多尺度特征图上获取多个增加了所述区域值后的区域内的图像特征,作为第一融合图像特征;
步骤S30,将所述多尺度特征图的图像特征、各第一融合图像特征分别与预构建的注意力权重矩阵融合,并将融合后的多尺度特征图的图像特征分别与融合后的各第一融合图像特征进行拼接,得到第二融合图像特征,将所述第二融合图像特征与对应的所述点特征集合进行拼接,得到增强的点云特征;
步骤S40,对各多尺度特征图的图像特征进行反卷积处理,并将反卷积处理后的图像特征进行拼接,得到拼接图像特征,将所述拼接图像与所述增强的点云特征融合,得到多模态特征融合点云;将所述多模态特征融合点云通过检测头生成三维边界框和分类评分,作为三维目标检测结果进行输出;所述检测头基于卷积层构建。
为了更清晰地对本发明一种多模态特征对齐融合的路侧目标检测方法进行说明,下面结合图1对本发明实施例中各步骤展开详述。
本发明第一实施例的一种多模态特征对齐融合的路侧目标检测方法,包括步骤S10-步骤S40,各步骤详细描述如下:
步骤S10,获取待进行三维目标检测图像及其对应的点云数据;提取所述输入图像的多尺度特征图;提取所述点云数据的多个点特征集合;
其中,提取所述点云数据的多个点特征集合的方法包括PointNet++方法。
本发明优选的实施例图像特征提取可以选取卷积神经网络中的卷积层、归一化层和激活层构建,不同图像特征图的分辨率相对于输入图像的缩小倍数分别是2、4、8、16,通道数分别为64、128、256、512。如图2所示,所述点云数据的图像特征是由缩小倍数的不同尺度特征图反卷积得到原始尺寸特征图拼接得到。本发明优选的实施例点云数据提取可以选取四层对特征进行编码,四层进行解码。在编码过程中,结合图像特征进一步丰富点特征。图像特征提取网络采用基础的卷积层,与点云特征提取网络对应。
步骤S20,分别将多个点特征集合中的点特征映射在所述多尺度特征图上,得到对应的坐标;根据所述坐标获取区域值,在所述多尺度特征图上获取多个增加了所述区域值后的区域内的图像特征,作为第一融合图像特征;
常用的公开数据集提供准确度高的标定参数,且相机和激光雷达采样数据时间同步误差小。根据激光雷达与相机之间的位置转换矩阵以及相机内参能够找到点云对应的图像特征,融合后的特征更具有两种特征的代表性。然而,对于现实场景的路侧数据集而言,由于数据集校准和同步过程存在误差,相机和激光雷达数据在时间和空间上存在不同步是很常见的问题。同时,还要考虑在特征级融合的方法中,不同模态的原始数据经过特征提取后由标定参数确定的对应关系会出现新的误差。由于这些特征经常被增强和聚合,融合中的一个关键挑战是如何有效地对齐来自两种模态转换后的特征。通过原始数据的标定参数获得粗糙的对应关系存在偏差时,结合两种模态优势的难度就大大增加。
本发明对多模态特征进行多尺度的搜索对齐。首先,根据标定参数找到点云和图像的对应关系。以投影位置确定目标区域,通过多次迭代,在目标区域中寻找点云匹配的最优图像局部特征。这样的设计一方面补偿了数据集时空不同步问题带来的偏差,另一方面改善了特征被不断增强和聚合后的对齐问题。如图3所示,本实施例中可以采取不同的搜索范围来实现上述操作,例如:
增加对图像特征相邻区域的搜索,寻找点云数据匹配的最优图像局部特征去补偿点云数据和多尺度图像特征映射存在的偏差。首先,通过校准矩阵计算得到点特征集合映射在图像上的关键点坐标,以二维像素坐标为基准增加区域值,实现点特征和关键图像特征领域特征的交互,达到搜索限定范围图像特征的目标,具体步骤如下:
步骤S21、获取所述点特征集合中的点云特征Fp在激光雷达坐标上的坐标点P,将所述P在所述多尺度特征上的映射作为关键点坐标Pc,以所述Pc为指针在所述多尺度特征图上进行搜索,得到对应的多尺度特征图的图像特征Fi;
步骤S22、在所述Pc周围增加区域值Poffset,将所述区域值Poffset与所述Pc的和为指针进行搜索,得到第一融合图像特征F′i:
Poffset=Rn×sigmoid(W1Fp);
P′c=Pc+Poffset;
其中,所述Rn是邻域范围参数,所述W1为可学习权重矩阵,P′c表示区域值Poffset与Pc的和。
步骤S30,将所述多尺度特征图的图像特征、各第一融合图像特征分别与预构建的注意力权重矩阵融合,并将融合后的多尺度特征图的图像特征分别与融合后的各第一融合图像特征进行拼接,得到第二融合图像特征,将所述第二融合图像特征与对应的所述点特征集合进行拼接,得到增强的点云特征;
多模态特征对齐有助于融合不同模态特征的优势。融合多模态特征要学习到有效的和有区别的特征。在点云中行人和栏杆都是由竖向分布的稀疏点云组成,处理这些相似情况需要更多的信息。为了加强融合特征的学习,本发明方法引入了全局信息,如图4所示,为本发明一种实施例的多模态特征融合模块全通道融合示例图,为每个点提供图像特征不同维度的语义信息。
步骤S31,将所述点特征集合中的点云特征Fp、所述图像特征Fi和所述F′i,通过多个可学习权重矩阵进行加权处理,得到注意力权重矩阵Wattention、W′attention:
Wattention=sigmoid(W4tanh(W2Fp+W3Fi));
W′attention=sigmoid(W4tanh(W2Fp+W3Fi));
其中,W2、W3和W4为可学习权重矩阵;
步骤S32,根据所述Wattention、所述W′attention、所述Fi、所述F′i得到增强的点云特征F′p;
F′p=C(C(WattentionFi∪W′attention F′i),Fp);
其中,C代表特征拼接操作,∪代表取并集操作。
本发明采用的方法更加充分结合了图像语义信息的有效性,并且在难以识别的小目标检测中,减少误检目标,从而提升检测精度。
步骤S40,对各多尺度特征图的图像特征进行反卷积处理,并将反卷积处理后的图像特征进行拼接,得到拼接图像特征,将所述拼接图像与所述增强的点云特征融合,得到多模态特征融合点云;将所述多模态特征融合点云通过检测头生成三维边界框和分类评分,作为三维目标检测结果进行输出;所述检测头基于卷积层构建。
其中,所述拼接图像特征Fw,其获取方法为:
Fw=C(F1+∑Deconv(Fn));
其中,F1为最大尺度的图像特征,Fn为除F1以外的图像特征,Deconv代表反卷积操作。
所述多模态特征对齐融合的路侧目标检测方法对应的模型,其在训练过程中的损失函数包括分类损失、回归损失和强制一致性损失;
其中,所述分类损失采用Focal loss函数;通过Smooth L1loss函数优化回归参数,对x轴、y轴和z轴方向这三个参数增加回归损失。
如图5所示,三维检测框架主要由特征提取网络、特征对齐和融合、细化网络三部分组成。最后,特征通过检测头生成三维边界框和分类评分。
如图6所示,为本发明一种实施例的目标检测结果示例图。图中第一行为输入图像,图中第二行和第三行为激光雷达点云数据目标检测结果图,其中第二行为基线模型的检测结果,图中标注了三维真值框、三维检测框和正方形边框,正方形边框中存在漏检误检情况,在漏检情况下,正方形边框中目标只有三维真值框;在误检情况下,正方形边框中目标只有三维检测框。在第三行本发明的检测结果图中,漏检目标检测到三维边界框,误检目标的三维检测框减少,检测性能提高。
上述实施例中虽然将各个步骤按照上述先后次序的方式进行了描述,但是本领域技术人员可以理解,为了实现本实施例的效果,不同的步骤之间不必按照这样的次序执行,其可以同时(并行)执行或以颠倒的次序执行,这些简单的变化都在本发明的保护范围之内。
本发明第二实施例的一种多模态特征对齐融合的路侧目标检测系统,基于一种多模态特征对齐融合的路侧目标检测方法,该系统包括:
提取模块,其配置为获取待进行三维目标检测图像及其对应的点云数据;提取所述输入图像的多尺度特征图;提取所述点云数据的多个点特征集合;
第一融合模块,其配置为分别将多个点特征集合中的点特征映射在所述多尺度特征图上,得到对应的坐标;根据所述坐标获取区域值,在所述多尺度特征图上获取多个增加了所述区域值后的区域内的图像特征,作为第一融合图像特征;
第二融合模块,其配置为将所述多尺度特征图的图像特征、各第一融合图像特征分别与预构建的注意力权重矩阵融合,并将融合后的多尺度特征图的图像特征分别与融合后的各第一融合图像特征进行拼接,得到第二融合图像特征,将所述第二融合图像特征与对应的所述点特征集合进行拼接,得到增强的点云特征;
结果输出模块,其配置为对各多尺度特征图的图像特征进行反卷积处理,并将反卷积处理后的图像特征进行拼接,得到拼接图像特征,将所述拼接图像与所述增强的点云特征融合,得到多模态特征融合点云;将所述多模态特征融合点云通过检测头生成三维边界框和分类评分,作为三维目标检测结果进行输出;所述检测头基于卷积层构建。
所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统的具体工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。
需要说明的是,上述实施例提供的一种多模态特征对齐融合的路侧目标检测系统,仅以上述各功能模块的划分进行举例说明,在实际应用中,可以根据需要而将上述功能分配由不同的功能模块来完成,即将本发明实施例中的模块或者步骤再分解或者组合,例如,上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块,以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称,仅仅是为了区分各个模块或者步骤,不视为对本发明的不当限定。
如图7所示,本发明第三实施例的一种存储装置,其中存储有多条程序,所述程序适用于由处理器处理加载并执行以实现一种多模态特征对齐融合的路侧目标检测方法。
如图7所示,本发明第四实施例的一种处理装置,包括处理器和存储装置;处理器,适用于执行各条程序;存储装置,适用于存储多条程序;所述程序适用于由处理器加载并执行以实现一种多模态特征对齐融合的路侧目标检测方法。
所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的存储装置、处理装置的具体工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。
本领域技术人员应该能够意识到,结合本文中所公开的实施例描述的各示例的模块、方法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,软件模块、方法步骤对应的程序可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
下面参考图7,其示出了用于实现本申请方法、系统、装置实施例的服务器的计算机系统的结构示意图。图7示出的服务器仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图7所示,计算机系统包括中央处理单元(CPU,Central Processing Unit)701,其可以根据存储在只读存储器(ROM,Read Only Memory)702中的程序或者从存储部分708加载到随机访问存储器(RAM,Random Access Memory)703中的程序而执行各种适当的动作和处理。在RAM 703中,还存储有系统操作所需的各种程序和数据。CPU 701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O,Input/Output)接口705也连接至总线704。
以下部件连接至I/O接口705:包括键盘、鼠标等的输入部分706;包括诸如阴极射线管(CRT,Cathode Ray Tube)、液晶显示器(LCD,Liquid Crystal Display)等以及扬声器等的输出部分707;包括硬盘等的存储部分708;以及包括诸如LAN(局域网,Local AreaNetwork)卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器710上,以便于从其上读出的计算机程序根据需要被安装入存储部分708。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分709从网络上被下载和安装,和/或从可拆卸介质711被安装。在该计算机程序被中央处理单元(CPU)701执行时,执行本申请的方法中限定的上述功能。需要说明的是,本申请上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
术语“第一”、“第二”等是用于区别类似的对象,而不是用于描述或表示特定的顺序或先后次序。
术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置/装置不仅包括那些要素,而且还包括没有明确列出的其它要素,或者还包括这些过程、方法、物品或者装置/装置所固有的要素。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征做出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
Claims (9)
1.一种多模态特征对齐融合的路侧目标检测方法,其特征在于,该方法包括:
步骤S10,获取待进行三维目标检测图像及其对应的点云数据;提取所述输入图像的多尺度特征图;提取所述点云数据的多个点特征集合;
步骤S20,分别将多个点特征集合中的点特征映射在所述多尺度特征图上,得到对应的坐标;根据所述坐标获取区域值,在所述多尺度特征图上获取多个增加了所述区域值后的区域内的图像特征,作为第一融合图像特征;
步骤S30,将所述多尺度特征图的图像特征、各第一融合图像特征分别与预构建的注意力权重矩阵融合,并将融合后的多尺度特征图的图像特征分别与融合后的各第一融合图像特征进行拼接,得到第二融合图像特征,将所述第二融合图像特征与对应的所述点特征集合进行拼接,得到增强的点云特征;
步骤S40,对各多尺度特征图的图像特征进行反卷积处理,并将反卷积处理后的图像特征进行拼接,得到拼接图像特征,将所述拼接图像与所述增强的点云特征融合,得到多模态特征融合点云;将所述多模态特征融合点云通过检测头生成三维边界框和分类评分,作为三维目标检测结果进行输出;所述检测头基于卷积层构建。
2.根据权利要求1所述的一种多模态特征对齐融合的路侧目标检测方法,其特征在于,所述第一融合图像特征,其获取方法为:
步骤S21、获取所述点特征集合中的点云特征Fp在激光雷达坐标上的坐标点P,将所述P在所述多尺度特征上的映射作为关键点坐标Pc,以所述Pc为指针在所述多尺度特征图上进行搜索,得到对应的多尺度特征图的图像特征Fi;
步骤S22、在所述Pc周围增加区域值Poffset,将所述区域值Poffset与所述Pc的和为指针进行搜索,得到第一融合图像特征F′i:
Poffset=Rn×sigmoid(W1Fp);
P′c=Pc+Poffset;
其中,所述Rn是邻域范围参数,所述W1为可学习权重矩阵,P′c表示区域值Poffset与Pc的和。
3.根据权利要求1所述的一种多模态特征对齐融合的路侧目标检测方法,其特征在于,所述增强的点云特征,其获取方法为:
步骤S31,将所述点特征集合中的点云特征Fp、所述图像特征Fi和所述F′i,通过多个可学习权重矩阵进行加权处理,得到注意力权重矩阵Wattention、W′attention:
Wattention=sigmoid(W4tanh(W2Fp+W3Fi));
W′attention=sigmoid(W4tanh(W2Fp+W3Fi));
其中,W2、W3和W4为可学习权重矩阵;
步骤S32,根据所述Wattention、所述W′attention、所述Fi、所述F′i得到增强的点云特征F′p;
F′p=C(C(WattentionFi∪W′attentionF′i),Fp);
其中,C代表特征拼接操作,∪代表取并集操作。
4.根据权利要求1所述的一种多模态特征对齐融合的路侧目标检测方法,其特征在于,所述拼接图像特征Fw,其获取方法为:
Fw=C(F1+∑Deconv(Fn));
其中,F1为最大尺度的图像特征,Fn为除F1以外的图像特征,Deconv代表反卷积操作。
5.根据权利要求1所述的一种多模态特征对齐融合的路侧目标检测方法,其特征在于,所述多模态特征对齐融合的路侧目标检测方法对应的模型,其在训练过程中的损失函数包括分类损失、回归损失和强制一致性损失;
其中,所述分类损失采用Focal loss函数;通过Smooth L1 loss函数优化回归参数,对x轴、y轴和z轴方向这三个参数增加回归损失。
6.根据权利要求1所述的一种多模态特征对齐融合的路侧目标检测方法,其特征在于,提取所述点云数据的多个点特征集合的方法包括PointNet++方法。
7.一种多模态特征对齐融合的路侧目标检测系统,基于权利要求1-6任一项所述的一种多模态特征对齐融合的路侧目标检测方法,其特征在于,该系统包括:
提取模块,其配置为获取待进行三维目标检测图像及其对应的点云数据;提取所述输入图像的多尺度特征图;提取所述点云数据的多个点特征集合;
第一融合模块,其配置为分别将多个点特征集合中的点特征映射在所述多尺度特征图上,得到对应的坐标;根据所述坐标获取区域值,在所述多尺度特征图上获取多个增加了所述区域值后的区域内的图像特征,作为第一融合图像特征;
第二融合模块,其配置为将所述多尺度特征图的图像特征、各第一融合图像特征分别与预构建的注意力权重矩阵融合,并将融合后的多尺度特征图的图像特征分别与融合后的各第一融合图像特征进行拼接,得到第二融合图像特征,将所述第二融合图像特征与对应的所述点特征集合进行拼接,得到增强的点云特征;
结果输出模块,其配置为对各多尺度特征图的图像特征进行反卷积处理,并将反卷积处理后的图像特征进行拼接,得到拼接图像特征,将所述拼接图像与所述增强的点云特征融合,得到多模态特征融合点云;将所述多模态特征融合点云通过检测头生成三维边界框和分类评分,作为三维目标检测结果进行输出;所述检测头基于卷积层构建。
8.一种存储装置,其中存储有多条程序,其特征在于,所述程序适用于由处理器加载并执行以实现权利要求1-6任一项所述的一种多模态特征对齐融合的路侧目标检测方法。
9.一种处理装置,包括处理器和存储装置;处理器,适用于执行各条程序;存储装置,适用于存储多条程序;其特征在于,所述程序适用于由处理器加载并执行以实现权利要求1-6任一项所述的一种多模态特征对齐融合的路侧目标检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310909012.5A CN116844129A (zh) | 2023-07-24 | 2023-07-24 | 多模态特征对齐融合的路侧目标检测方法、系统及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310909012.5A CN116844129A (zh) | 2023-07-24 | 2023-07-24 | 多模态特征对齐融合的路侧目标检测方法、系统及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116844129A true CN116844129A (zh) | 2023-10-03 |
Family
ID=88167066
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310909012.5A Pending CN116844129A (zh) | 2023-07-24 | 2023-07-24 | 多模态特征对齐融合的路侧目标检测方法、系统及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116844129A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117173693A (zh) * | 2023-11-02 | 2023-12-05 | 安徽蔚来智驾科技有限公司 | 3d目标检测方法、电子设备、介质以及驾驶设备 |
-
2023
- 2023-07-24 CN CN202310909012.5A patent/CN116844129A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117173693A (zh) * | 2023-11-02 | 2023-12-05 | 安徽蔚来智驾科技有限公司 | 3d目标检测方法、电子设备、介质以及驾驶设备 |
CN117173693B (zh) * | 2023-11-02 | 2024-02-27 | 安徽蔚来智驾科技有限公司 | 3d目标检测方法、电子设备、介质以及驾驶设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6745328B2 (ja) | 点群データを復旧するための方法及び装置 | |
US20220051417A1 (en) | Target recognition method and appartus, storage medium, and electronic device | |
US9466013B2 (en) | Computer vision as a service | |
WO2020000390A1 (en) | Systems and methods for depth estimation via affinity learned with convolutional spatial propagation networks | |
US11775574B2 (en) | Method and apparatus for visual question answering, computer device and medium | |
CN113377888A (zh) | 训练目标检测模型和检测目标的方法 | |
WO2023155581A1 (zh) | 一种图像检测方法和装置 | |
CN116844129A (zh) | 多模态特征对齐融合的路侧目标检测方法、系统及装置 | |
CN112712036A (zh) | 交通标志识别方法、装置、电子设备及计算机存储介质 | |
CN115578516A (zh) | 一种三维成像方法、装置、设备和存储介质 | |
Yang et al. | Lite-fpn for keypoint-based monocular 3d object detection | |
CN113421217A (zh) | 可行驶区域检测方法和装置 | |
CN112989877A (zh) | 点云数据中标注对象的方法及装置 | |
US11699234B2 (en) | Semantic segmentation ground truth correction with spatial transformer networks | |
CN114186007A (zh) | 高精地图生成方法、装置、电子设备和存储介质 | |
CN116642490A (zh) | 基于混合地图的视觉定位导航方法、机器人及存储介质 | |
Keyvanfar et al. | Performance comparison analysis of 3D reconstruction modeling software in construction site visualization and mapping | |
CN116452911A (zh) | 目标检测模型训练方法及装置、目标检测方法及装置 | |
CN114429631B (zh) | 三维对象检测方法、装置、设备以及存储介质 | |
Alaba et al. | Emerging Trends in Autonomous Vehicle Perception: Multimodal Fusion for 3D Object Detection | |
CN115937449A (zh) | 高精地图生成方法、装置、电子设备和存储介质 | |
Wang et al. | Drosophila-inspired 3D moving object detection based on point clouds | |
CN115393423A (zh) | 目标检测方法和装置 | |
CN114386481A (zh) | 一种车辆感知信息融合方法、装置、设备及存储介质 | |
CN113901903A (zh) | 道路识别方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |