CN116797907A - 基于注意力机制和多尺度检测的点云目标检测方法 - Google Patents
基于注意力机制和多尺度检测的点云目标检测方法 Download PDFInfo
- Publication number
- CN116797907A CN116797907A CN202310662931.7A CN202310662931A CN116797907A CN 116797907 A CN116797907 A CN 116797907A CN 202310662931 A CN202310662931 A CN 202310662931A CN 116797907 A CN116797907 A CN 116797907A
- Authority
- CN
- China
- Prior art keywords
- detection
- point cloud
- network
- layer
- attention mechanism
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 129
- 230000007246 mechanism Effects 0.000 title claims abstract description 44
- 238000000034 method Methods 0.000 claims abstract description 48
- 230000002708 enhancing effect Effects 0.000 claims abstract description 6
- 230000006870 function Effects 0.000 claims description 16
- 238000010586 diagram Methods 0.000 claims description 15
- 238000011176 pooling Methods 0.000 claims description 7
- 238000007781 pre-processing Methods 0.000 claims description 5
- 238000012549 training Methods 0.000 claims description 5
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 4
- YGULWPYYGQCFMP-CEAXSRTFSA-N Metoprolol tartrate Chemical compound OC(=O)[C@H](O)[C@@H](O)C(O)=O.COCCC1=CC=C(OCC(O)CNC(C)C)C=C1.COCCC1=CC=C(OCC(O)CNC(C)C)C=C1 YGULWPYYGQCFMP-CEAXSRTFSA-N 0.000 claims description 3
- 238000002474 experimental method Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 238000013519 translation Methods 0.000 claims description 3
- 230000004931 aggregating effect Effects 0.000 claims description 2
- 230000005764 inhibitory process Effects 0.000 claims description 2
- 230000004913 activation Effects 0.000 description 4
- 238000010606 normalization Methods 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 230000001629 suppression Effects 0.000 description 2
- 241000282414 Homo sapiens Species 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/52—Scale-space analysis, e.g. wavelet analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/766—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using regression, e.g. by projecting features on hyperplanes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/64—Three-dimensional objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/70—Labelling scene content, e.g. deriving syntactic or semantic representations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于注意力机制和多尺度检测的点云目标检测方法。本方法在点云目标检测任务中,将点云数据映射到二维网格中编码成体素柱体的形式,再通过基于点网的卷积网络和注意力机制聚合体素柱体的特征,接着将其编码成伪稀疏图的形式,而后基于特征金字塔网络和注意力机制获得不同尺度的伪稀疏图特征图,最后在不同尺度的特征图中定位目标和辨别目标的类别。本发明通过注意力机制方法增强了网络提取点云空间语义信息的能力,从而增强了网络的检测性能。本发明基于特征金字塔网络在不同尺度的特征图上进行检测,增强了网络识别不同尺度目标的能力。
Description
技术领域
本发明涉及基于深度学习的点云研究领域,尤其涉及一种基于注意力机制和多尺度检测的点云目标检测方法。
背景技术
无人机激光雷达在环境检测中扮演着重要角色。它们能够快速、高效地扫描大面积地形,获取精确的三维点云数据,帮助人类了解地形的变化和环境的变化。相比于其他传感器,激光雷达不受光照条件限制,在恶劣天气环境中也能正常工作,采集环境信息。点云数据由激光雷达采集获得,可以提供深度信息和物体的结构信息,能辅助计算机更好地理解环境。因此基于点云数据的三维目标检测方法成为了环境检测任务中重要的方法。将不规则的点云数据编码成规则的体素数据,从而应用深度学习方法,是现下基于深度学习的点云方法常用的做法。然而基于体素的点云目标检测方法,存在着将点云数据离散成三维体素引起的信息损失和受限于体素设置等问题。体素设置过小,会导致算法开销增加,影响检测速度,体素设置过大,会引起细节信息损失,影响检测精度。
发明内容
发明目的:针对现有技术的不足,本发明提出基于注意力机制和多尺度检测的点云目标检测方法,注意力机制方法能提升网络聚合点云空间语义信息的能力,多尺度检测方法可以提高网络对于不同尺度目标的检测能力,从而提高网络的检测性能。
技术方案:为了实现上述发明目的,本发明提出基于动态角色目标分配的多智能体追逐方法,该方法具体包括以下步骤:
(1)构建基于注意力机制和点柱网络的体素柱体编码层,其中输入是点云数据,输出是编码后的伪稀疏图特征;
(2)构建基于注意力机制和特征金字塔网络的中间卷积层,其中输入是伪稀疏图特征,输出是带有注意力权重的多尺度的特征图;
(3)根据步骤(2)输出的多尺度特征构建多尺度检测层,其中输入是多尺度的特征,输出是不同尺度的特征图中的检测结果包括目标的类别和边界框信息;
(4)定义损失函数和优化器,为(3)中的检测结果分配标签值,从而应用损失函数和优化器训练由步骤(1)、(2)、(3)构建的检测网络,更新检测网络的参数;
(5)根据非极大值抑制方法输出最终的检测结果。
进一步地,该方法还包括首先对点云数据进行预处理的步骤,所述点云数据预处理包括点云数据读取、创建一个关于所有类别目标的检测框与点云的检索表和对点云数据进行随机平移、旋转和缩放。
进一步地,步骤(1)中,构建基于注意力机制和点柱网络的体素柱体编码层的具体形式为:
首先将N×4的点云数据映射到XY平面中的网格中,计算出非空网格中的中心点,从而将点云数据编码成N1×P×C的体素柱体的形式并用哈希表记录下非空体素与网格的映射关系,其中N1为非空体素柱体的个数,P为体素柱体中点的数目,C为点集的特征通道;接着用基于点网的点集特征提取层,提取每个非空体素的特征,输出N1×C1;而后基于之前记录的哈希表将非空体素特征编码成X×Y×C1的伪稀疏图特征;最后用基于高效通道注意力网络和条形池化网络的通道空间注意力机制方法对伪稀疏图特征进行增强,其中通道空间注意力机制中的通道注意力模块由基于高效通道注意力网络的卷积层构成,空间注意力模块采用了条形池化的方法给予特征图权重。
进一步地,步骤(2)中构建基于注意力机制和特征金字塔网络的中间卷积层的具体方法为:
首先分别通过卷积层和反卷积层对步骤(1)中得到的特征图进行下采样和上采样操作,再结合残差连接,生成不同尺度的特征图;而后将特征图输入到步骤(2)中提到的注意力机制模块中生成带有权重的特征图,从而使得网络聚合特征语义信息的能力增强,其中卷积层由卷积模块、批处理归一化层和激活函数层构成,反卷积层由反卷积模块、批处理归一化层和激活函数层构成。
进一步地,步骤(3)中构建多尺度检测层的具体方法为:
对于不同尺度的特征图,检测层的权值是共享的;检测层采用的是基于锚框的检测方法,因此需要在不同尺度的特征图中生成锚框;检测层由预测类别的分类多层感知机层和预测边界框参数的回归多层感知机层构成;分类多层感知机层输入是C×H×W的特征图,输出是C1*H*W的类别分数,其中C1是生成的锚框数量与类别数目的乘积;回归多层感知机层输入是C×H×W的特征图,输出是C2×H×W的边界框参数,其中边界框参数包括边界框中心点坐标XY的偏移值Δx、Δy、z轴坐标、边界框的长宽高以及偏移角,C2是边界框参数个数与锚框数目的乘积。
进一步地,步骤(4)中为检测结果分配标签值的具体方法为:
将三维检测框真值在XY平面的投影与预测的边界框通过交并比方法匹配;实验中采用的是KITTI数据集,它的场景中包括汽车、行人和骑行者三类目标;汽车检测的正阈值和负阈值分别被设置为0.6和0.45,行人和骑行者的正阈值和负阈值被设置为0.5和0.35;
步骤(4)中损失函数被设定为:
其中Npos为锚框被标记为正类样本的数目,超参数βloc=2,βcls=1,βdir=0.2;
Lcls=-αa(1-pa)γlogpa
其中pa是锚框对应的物体类别概率,超参数α=0.25,γ=2;
步骤(4)中优化器采用的是Adam优化器,学习率为0.001;
步骤(4)中训练由步骤(1)、(2)、(3)、构建的检测网络的方法为:
先通过损失函数计算检测结果与其分配的边界框的差值,再通过梯度反馈和优化器更新检测网络的参数,总共训练80个轮次。
本发明还提供一种基于注意力机制和多尺度检测的点云目标检测装置,该装置包括:存储器,用于存储计算机可读指令;还包括,与所述存储器耦合的处理器,用于执行所述存储器中的计算机可读指令从而执行如上述的方法。
本发明另外提供一种计算机可读存储介质,当指令在计算机上运行时,使得所述计算机执行上述的方法。
与现有技术相比,本发明的有益效果在于:
1、本发明在体素特征编码层和中间卷积层都引入了通道空间注意力机制,使得网络更关注于重要的特征和区域,增强了网络提取点云空间语义信息的能力和检测性能。
2、本发明引入了多尺度检测方法,提高了对于不同尺度目标的检测能力。
附图说明
图1是基于注意力机制和多尺度检测的点云目标检测方法的整体方案图;
图2是基于高效通道注意力网络和条形池化网络的注意力模块图;
图3是基于高效通道注意力网络的通道注意力模块图;
图4是基于条形池化网络的空间注意力模块图;
图5是中间卷积层;
图6是点云检测方法的检测精度对比;
图7是点云目标检测方法在KITTI数据集中等难度下的检测效果对比。
具体实施方式
下面结合附图和具体实施方式,进一步阐明本发明。
基于注意力机制和多目标检测的整体方案图如图1所示,先对点云数据进行预处理,然后通过体素柱体特征编码层,将点云数据编码成二维伪稀疏图,再通过中间卷积层将伪稀疏图特征处理成不同尺度的特征图,而后在不同尺度的特征图中生成锚框并通过检测模块输出检测结果,接着通过交并比将预测的检测结果与标签值匹配,通过损失函数和优化器对神经网络进行梯度更新,最后用训练好的检测网络预测检测结果并通过非极大值抑制方法输出最终的检测结果。
首先给出网络结构图中模块的定义,如表1所示:
表1
基于注意力机制和多尺度检测的点云目标检测方法,具体包括以下步骤:
(1)点云数据预处理,包括点云数据读取、创建一个关于所有类别目标的检测框与点云的检索表和对点云数据进行随机平移、旋转和缩放。
(2)构建基于注意力机制和点柱网络的体素柱体编码层,其中输入是点云数据,输出是编码后的伪稀疏图特征;
首先将N×4的点云数据映射到XY平面中的网格中,计算出非空网格中的中心点(xc,yc,zc),从而将点云数据编码成N1×P×C的体素柱体的形式并用哈希表记录下非空体素与网格的映射关系。
其中N1为非空体素柱体的个数,P为体素柱体中点的数目,C由(x,y,z,r,xc,yc,zc,x-xc,y-yc)构成。
接着用基于点网的点集特征提取层,提取每个非空体素的特征,输出N1×C1。
而后基于之前记录的哈希表将非空体素特征编码成X×Y×C1的伪稀疏图特征。
最后用基于高效通道注意力网络和SPNet的通道空间注意力机制方法对伪稀疏图特征进行增强。其中通道空间注意力机制中的通道注意力模块由基于高效通道注意力网络的卷积层构成,结构如图3,空间注意力模块采用了条形池化的方法给予特征图权重,结构如图4。注意力模块总体结构如图2,将通道注意力图和空间注意力图通过残差连接拼接到一起。
(3)构建基于注意力机制和特征金字塔网络的中间卷积层:
中间卷积层由上采样层、下采样层和注意力机制模块组成,其结构如图5。
上采样层由反卷积层、批处理归一化层和激活函数层构成,下采样层由卷积层、批处理归一化层和激活函数层构成。注意力机制模块同(2)。中间卷积层首先分别通过卷积层和反卷积层对步骤(2)中得到的特征图进行下采样和上采样操作,再结合残差连接,生成不同尺度的特征图,最后将特征图输入到步骤(3)中提到的注意力机制模块中生成带有权重的特征图,从而使得网络聚合特征语义信息的能力增强。
(4)构建多尺度检测层:
对于不同尺度的特征图,检测层的权值是共享的。检测层采用的是基于锚框的检测方法,因此需要在不同尺度的特征图中生成锚框。检测层由预测类别的分类多层感知机层和预测边界框参数的回归多层感知机层构成。分类多层感知机层输入是C×H×W的特征图,输出是C1*H*W的类别分数,其中C1是生成的锚框数量与类别数目的乘积。回归多层感知机层输入是C×H×W的特征图,输出是C2×H×W的边界框参数,其中边界框参数包括边界框中心点坐标XY的偏移值Δx、Δy、z轴坐标、边界框的长宽高以及偏移角,C2是边界框参数个数与锚框数目的乘积。
(5)步骤(5)中为检测结果分配标签值的具体方法为:
将三维检测框真值在XY平面的投影与预测的边界框通过交并比方法匹配。实验中采用的是KITTI数据集,它的场景中包括汽车、行人和骑行者三类目标。汽车检测的正阈值和负阈值分别被设置为0.6和0.45,行人和骑行者的正阈值和负阈值被设置为0.5和0.35。
步骤(5)中损失函数被设定为:
其中Npos为锚框被标记为正类样本的数目,超参数βloc=2,βcls=1,βdir=0.2。
Lcls=-αa(1-pa)γlogpa
其中pa是锚框对应的物体类别概率,超参数α=0.25,γ=2。
优化器采用的是亚当优化器,也称为Adam优化器,学习率为0.001。
先通过损失函数计算检测结果与其分配的边界框的差值,再通过梯度反馈和优化器更新检测网络的参数,总共训练80个轮次。
步骤(5)中训练由(2)(3)(4)构建的检测网络的方法为:
先通过损失函数计算检测结果与其分配的边界框的差值,再通过梯度反馈和优化器更新检测网络的参数。
(6)通过非极大值抑制方法筛选网络的预测结果,输出最终的检测结果。
上述实施例,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现,当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。硬件包括存储器,用于存储计算机可读指令;还包括,与所述存储器耦合的处理器,用于执行所述存储器中的计算机可读指令从而执行如上述的方法。软件包括计算机可读存储介质,当指令在计算机上运行时,使得所述计算机执行上述的方法。
验证效果
为了验证基于注意力机制和多尺度检测的点云目标检测方法的效果,本发明在KITTI数据集上做了验证。KITTI数据集是经典的室外目标检测数据集,是由卡尔斯鲁厄理工学院和丰田技术研究所联合提供的自动驾驶数据集,场景中目标包括行人、汽车和骑行车,提供了目标检测的衡量标准。
本方法通过对比经典点云目标检测方法在KITTI数据集上的检测精度与推理速度,验证本方法的有效性。
图6是不同点云目标检测方法在KITTI数据集中的检测精度,可以看出本方法比基于点的检测方法在行人检测上更有优势,比基于体素的检测方法在车辆和骑行者检测上更有优势。
图7是不同点云目标检测方法在KITTI数据集中的中等难度下的推理速度与检测精度,可以看出本方法实现了检测精度与推理速度的平衡。
本发明提出了基于注意力机制和多尺度检测的点云目标检测方法,通过注意力机制增强了网络提取点云语义信息的能力以及使得网络更关注与点云数据中更重要的特征和区域,从而增强了网络的检测性能,通过多尺度检测方法增强了网络检测不同尺度目标。
以上所述仅为本发明的实施例而已,并不用于限制本发明。凡在本发明的原则之内,所作的等同替换,均应包含在本发明的保护范围之内。本发明未作详细阐述的内容属于本专业领域技术人员公知的已有技术。
Claims (8)
1.基于注意力机制和多尺度检测的点云目标检测方法,其特征在于,该方法包括以下步骤:
(1)构建基于注意力机制和点柱网络的体素柱体编码层,其中输入是点云数据,输出是编码后的伪稀疏图特征;
(2)构建基于注意力机制和特征金字塔网络的中间卷积层,其中输入是伪稀疏图特征,输出是带有注意力权重的不同尺度的特征图;
(3)根据步骤(2)输出的多尺度特征图,构建多尺度检测层,其中输入是不同尺度的特征,输出是不同尺度的特征图中的检测结果,包括目标的类别和边界框信息;
(4)定义损失函数和优化器,为步骤(3)中的检测结果分配标签值,从而应用所述损失函数和优化器训练由步骤(1)、(2)、(3)构建的检测网络,更新检测网络的参数;
(5)根据非极大值抑制方法输出最终的检测结果。
2.如权利要求1所述基于注意力机制和多尺度检测的点云目标检测方法,其特征在于:该方法还包括首先对点云数据进行预处理的步骤,所述点云数据预处理包括点云数据读取、创建一个关于所有类别目标的检测框与点云的检索表和对点云数据进行随机平移、旋转和缩放。
3.如权利要求1注意力机制和多尺度检测的点云目标检测方法,其特征在于:
步骤(1)中构建基于注意力机制和点柱网络的体素柱体编码层的具体形式为:
首先将N×4的点云数据映射到XY平面中的网格中,计算出非空网格中的中心点,从而将点云数据编码成N1×P×C的体素柱体的形式并用哈希表记录下非空体素与网格的映射关系;其中N1为非空体素柱体的个数,P为体素柱体中点的数目,C为点集的特征通道;
接着用基于点网的点集特征提取层,提取每个非空体素的特征,输出N1×C1;
而后基于之前记录的哈希表将非空体素特征编码成X×Y×C1的伪稀疏图特征;
最后用基于高效通道注意力网络和条形池化网络的通道空间注意力机制方法对伪稀疏图特征进行增强,其中,通道空间注意力机制中的通道注意力模块由基于高效通道注意力网络的卷积层构成,空间注意力模块采用了条形池化的方法给予特征图权重。
4.如权利要求1所述基于注意力机制和多尺度检测的点云目标检测方法,其特征在于:
步骤(2)中构建基于注意力机制和特征金字塔网络的中间卷积层的具体方法为:
首先分别通过卷积层和反卷积层对步骤(1)中得到的特征图进行下采样和上采样操作,再结合残差连接,生成不同尺度的特征图,最后将特征图输入到步骤(2)中提到的注意力机制模块中生成带有权重的特征图,从而使得网络聚合特征语义信息的能力增强。
5.如权利要求1所述基于注意力机制和多尺度检测的点云目标检测方法,其特征在于:
步骤(3)中构建多尺度检测层的具体方法为:
对于不同尺度的特征图,检测层的权值是共享的;
检测层采用的是基于锚框的检测方法,因此需要在不同尺度的特征图中生成锚框;
检测层由预测类别的分类多层感知机层和预测边界框参数的回归多层感知机层构成;
分类多层感知机层输入是C×H×W的特征图,输出是C1*H*W的类别分数,其中C1是生成的锚框数量与类别数目的乘积;
回归多层感知机层输入是C×H×W的特征图,输出是C2×H×W的边界框参数,其中边界框参数包括边界框中心点坐标XY的偏移值Δx、Δy、z轴坐标、边界框的长宽高以及偏移角,C2是边界框参数的个数与锚框数目的乘积。
6.如权利要求1所述基于注意力机制和多尺度检测的点云目标检测方法,其特征在于:
步骤(4)中为检测结果分配标签值的具体方法为:
将三维检测框真值在XY平面的投影与预测的边界框通过交并比方法匹配;
实验中采用的是KITTI数据集,它的场景中包括汽车、行人和骑行者三类目标;
步骤(4)中损失函数被设定为:
其中Npos为锚框被标记为正类样本的数目,超参数βloc=2,βcls=1,βdir=0.2。;
Lcls=-αa(1-pa)γlogpa
其中pa是锚框对应的物体类别概率,超参数α=0.25,γ=2。;
步骤(4)中优化器采用的是亚当优化器;
步骤(4)中训练由步骤(1)、(2)、(3)构建的检测网络的方法为:
先通过损失函数计算检测结果与其分配的边界框的差值,再通过梯度反馈和优化器更新检测网络的参数。
7.一种基于注意力机制和多尺度检测的点云目标检测装置,该装置包括:存储器,用于存储计算机可读指令;还包括,与所述存储器耦合的处理器,用于执行所述存储器中的计算机可读指令从而执行如权利要求1至6中任一项所述的方法。
8.一种计算机可读存储介质,其特征在于,当指令在计算机上运行时,使得所述计算机执行如权利要求1至6中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310662931.7A CN116797907A (zh) | 2023-06-06 | 2023-06-06 | 基于注意力机制和多尺度检测的点云目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310662931.7A CN116797907A (zh) | 2023-06-06 | 2023-06-06 | 基于注意力机制和多尺度检测的点云目标检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116797907A true CN116797907A (zh) | 2023-09-22 |
Family
ID=88035530
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310662931.7A Pending CN116797907A (zh) | 2023-06-06 | 2023-06-06 | 基于注意力机制和多尺度检测的点云目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116797907A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117974990A (zh) * | 2024-03-29 | 2024-05-03 | 之江实验室 | 一种基于注意力机制和特征增强结构的点云目标检测方法 |
-
2023
- 2023-06-06 CN CN202310662931.7A patent/CN116797907A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117974990A (zh) * | 2024-03-29 | 2024-05-03 | 之江实验室 | 一种基于注意力机制和特征增强结构的点云目标检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108830280B (zh) | 一种基于区域提名的小目标检测方法 | |
US9286524B1 (en) | Multi-task deep convolutional neural networks for efficient and robust traffic lane detection | |
CN110879994A (zh) | 基于形状注意力机制的三维目测检测方法、系统、装置 | |
US20220156483A1 (en) | Efficient three-dimensional object detection from point clouds | |
CN112446227A (zh) | 物体检测方法、装置及设备 | |
CN112668469A (zh) | 基于深度学习的多目标检测识别方法 | |
CN114463736A (zh) | 一种基于多模态信息融合的多目标检测方法及装置 | |
EP4174792A1 (en) | Method for scene understanding and semantic analysis of objects | |
CN112613450A (zh) | 一种增强在困难样本上表现的3d目标检测方法 | |
CN114764856A (zh) | 图像语义分割方法和图像语义分割装置 | |
Bieder et al. | Exploiting multi-layer grid maps for surround-view semantic segmentation of sparse lidar data | |
Danapal et al. | Sensor fusion of camera and LiDAR raw data for vehicle detection | |
WO2023155903A1 (en) | Systems and methods for generating road surface semantic segmentation map from sequence of point clouds | |
CN116152800A (zh) | 基于跨视图特征融合的3d动态多目标检测方法、系统及存储介质 | |
CN116246119A (zh) | 3d目标检测方法、电子设备及存储介质 | |
CN116310368A (zh) | 一种激光雷达3d目标检测方法 | |
CN116152622A (zh) | 基于多尺度特征融合的点云目标检测方法、装置和设备 | |
CN116797907A (zh) | 基于注意力机制和多尺度检测的点云目标检测方法 | |
EP4152274A1 (en) | System and method for predicting an occupancy probability of a point in an environment, and training method thereof | |
WO2022017129A1 (zh) | 目标对象检测方法、装置、电子设备及存储介质 | |
Kim et al. | LiDAR Based 3D object detection using CCD information | |
Zhang et al. | An Improved Detection Algorithm For Pre-processing Problem Based On PointPillars | |
Lee et al. | EMOS: Enhanced moving object detection and classification via sensor fusion and noise filtering | |
Wang et al. | Real-time Semantic Segmentation of LiDAR Point Clouds on Edge Devices for Unmanned Systems | |
CN117475410B (zh) | 基于前景点筛选的三维目标检测方法、系统、设备、介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |