CN115331194A - 遮挡目标检测方法及相关设备 - Google Patents
遮挡目标检测方法及相关设备 Download PDFInfo
- Publication number
- CN115331194A CN115331194A CN202210802847.6A CN202210802847A CN115331194A CN 115331194 A CN115331194 A CN 115331194A CN 202210802847 A CN202210802847 A CN 202210802847A CN 115331194 A CN115331194 A CN 115331194A
- Authority
- CN
- China
- Prior art keywords
- occlusion
- feature
- point cloud
- target detection
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 213
- 238000000034 method Methods 0.000 claims abstract description 68
- 238000012549 training Methods 0.000 claims abstract description 54
- 238000004364 calculation method Methods 0.000 claims abstract description 50
- 230000002776 aggregation Effects 0.000 claims abstract description 34
- 238000004220 aggregation Methods 0.000 claims abstract description 34
- 230000004927 fusion Effects 0.000 claims abstract description 23
- 238000005070 sampling Methods 0.000 claims description 31
- 238000004590 computer program Methods 0.000 claims description 22
- 238000010586 diagram Methods 0.000 claims description 22
- 230000006870 function Effects 0.000 claims description 19
- 238000013528 artificial neural network Methods 0.000 claims description 15
- 238000000605 extraction Methods 0.000 claims description 14
- 238000013507 mapping Methods 0.000 claims description 14
- 238000011176 pooling Methods 0.000 claims description 13
- 238000003860 storage Methods 0.000 claims description 12
- 238000010606 normalization Methods 0.000 claims description 6
- 238000007670 refining Methods 0.000 claims description 6
- 230000009466 transformation Effects 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 238000006116 polymerization reaction Methods 0.000 claims description 4
- 230000000379 polymerizing effect Effects 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 description 13
- 230000008569 process Effects 0.000 description 9
- 238000012545 processing Methods 0.000 description 7
- 241000282326 Felis catus Species 0.000 description 5
- 230000004931 aggregating effect Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 229910052739 hydrogen Inorganic materials 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000007430 reference method Methods 0.000 description 2
- 238000010561 standard procedure Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 101100533306 Mus musculus Setx gene Proteins 0.000 description 1
- 206010039203 Road traffic accident Diseases 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
- G06V20/58—Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/255—Detecting or recognising potential candidate objects based on visual cues, e.g. shapes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/42—Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/513—Sparse representations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/766—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using regression, e.g. by projecting features on hyperplanes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Length Measuring Devices With Unspecified Measuring Means (AREA)
Abstract
本申请实施例公开了一种遮挡目标检测方法及相关设备。该方法包括:获取训练样本集,输入至遮挡目标检测网络以获取训练样本集中的候选数据;基于稀疏点云数据利用遮挡目标检测网络中的编码器和解码器进行迭代运算得到遮挡目标整体形状点云数据;根据遮挡目标整体形状点云数据、已知区域点集和稀疏点云特征利用遮挡目标检测网络中的通道注意力融合操作得到聚合特征;根据聚合特征和已知区域点集利用多尺度transformer模型进行特征细化迭代计算获取遮挡目标全局特征;基于遮挡目标全局特征进行遮挡目标检测网络中的置信度计算操作和位置回归操作以生成遮挡目标检测模型;采用遮挡目标检测模型检测待检测样本集完成遮挡目标检测。
Description
技术领域
本说明书涉及目标识别领域,更具体地说,本发明涉及一种遮挡目标检测方法及相关设备。
背景技术
无人驾驶技术能自动规划安全合理的行驶路线,避免交通拥堵并有效降低交通事故发生概率,然而无人驾驶本身是一个极具挑战性的任务,环境的复杂多变使得目标难以被准确定位从而影响驾驶安全性,因此,研究精准检测和感知周围环境中的具体目标信息的目标检测方法对保障无人驾驶的安全性至关重要。
传统的二维目标检测方法使用RGB图像作为输入数据,而RGB图像容易受到光照、气候等环境因素的影响,且二维图像缺乏三维的深度信息,导致难以准确定位目标的三维空间位置。与二维图像相比,由激光雷达等设备采集到的三维点云数据蕴含了复杂环境中的高精度深度信息,能更准确地对目标进行定位,且检测性能不受环境因素的影响,因此,基于点云数据的三维目标检测方法被广泛应用于无人驾驶领域。
但是由于实际场景中的目标之间存在遮挡的情况,使得点云采集设备难以获取遮挡目标的完整的形状点云数据,导致这类遮挡目标缺乏足够的形状特征信息,难以被检测,从而影响无人驾驶系统在复杂环境中的检测性能。因此,研究复杂场景中遮挡目标的检测方法对于提升无人驾驶系统感知复杂环境中目标信息的能力具有十分重要的意义。
发明内容
在发明内容部分中引入了一系列简化形式的概念,这将在具体实施方式部分中进一步详细说明。本发明的发明内容部分并不意味着要试图限定出所要求保护的技术方案的关键特征和必要技术特征,更不意味着试图确定所要求保护的技术方案的保护范围。
为了提升遮挡目标的识别精度,第一方面,本发明提出一种遮挡目标检测方法,上述方法包括:
获取训练样本集,输入至遮挡目标检测网络中,通过上述遮挡目标检测网络中的点云多尺度特征提取子网络获取上述训练样本集中的候选数据,其中,上述候选数据包括候选框、稀疏点云数据和稀疏点云特征;
基于上述稀疏点云数据利用上述遮挡目标检测网络中的编码器和解码器进行迭代运算得到遮挡区域形状特征,根据上述遮挡区域形状特征进行上述遮挡目标检测网络中的形状点云重构操作得到遮挡目标整体形状点云数据;
根据上述遮挡目标整体形状点云数据、已知区域点集和上述稀疏点云特征利用上述遮挡目标检测网络中的通道注意力融合操作获取聚合特征,其中,上述已知区域点集是基于上述稀疏点云数据随机采样得到的;
基于上述聚合特征和上述已知区域点集利用上述遮挡目标检测网络中的多尺度transformer模型进行特征细化迭代计算获取遮挡目标全局特征;
基于上述遮挡目标全局特征进行上述遮挡目标检测网络中的置信度计算操作和位置回归操作,获取上述训练样本集中的遮挡目标的置信度分数和回归偏移量,基于上述置信度分数和上述回归偏移量利用损失函数约束更新上述遮挡目标检测网络的参数,学习生成遮挡目标检测模型;
采用上述遮挡目标检测模型对待检测样本集进行检测,得到遮挡目标检测框和遮挡目标类别信息,完成遮挡目标检测。
可选的,上述迭代运算包括第一迭代运算和第二迭代运算;
上述基于上述稀疏点云数据利用上述遮挡目标检测网络中的编码器和解码器进行迭代运算得到遮挡区域形状特征,根据上述遮挡区域形状特征进行上述遮挡目标检测网络中的形状点云重构操作得到遮挡目标整体形状点云数据,包括:
根据上述稀疏点云数据进行上述遮挡目标检测网络中的图嵌入操作获取图嵌入局部结构特征,基于上述图嵌入局部结构特征,利用上述编码器进行上述第一迭代运算得到编码器输出结构特征,对上述编码器输出结构特征进行上述遮挡目标检测网络中的投影映射操作,以获取遮挡区域中心点序列和遮挡区域中心点结构特征;
对上述遮挡区域中心点序列和上述遮挡区域中心点结构特征执行上述遮挡目标检测网络中的第一嵌入操作得到遮挡区域初始局部形状特征;
根据上述遮挡区域初始局部形状特征和上述编码器输出结构特征,利用上述解码器进行上述第二迭代运算和维度变换操作,以获取上述遮挡区域形状特征,利用上述遮挡区域形状特征、上述遮挡区域中心点序列和上述稀疏点云数据进行上述形状点云重构操作,获取上述遮挡目标整体形状点云数据。
可选的,上述图嵌入操作包括第一迭代最远点采样操作、图卷积操作及第二嵌入操作,上述投影映射操作包括全局池化操作和第一多层感知器;
上述根据上述稀疏点云数据进行上述遮挡目标检测网络中的图嵌入操作获取图嵌入局部结构特征,基于上述图嵌入局部结构特征,利用上述编码器进行上述第一迭代运算得到编码器输出结构特征,对上述编码器输出结构特征进行上述遮挡目标检测网络中的投影映射操作,以获取遮挡区域中心点序列和遮挡区域中心点结构特征,包括:
对上述稀疏点云数据进行上述第一迭代最远点采样操作和上述图卷积操作获取已知区域中心点序列和已知区域拓扑特征;
将上述已知区域中心点序列和上述已知区域拓扑特征执行上述第二嵌入操作以获取上述图嵌入局部结构特征;
基于上述图嵌入局部结构特征,利用上述编码器进行上述第一迭代运算以获取上述编码器输出结构特征,其中,上述第一迭代运算是基于特征自编码操作和第一前馈网络进行编码的;
根据上述编码器输出结构特征利用上述全局池化操作提取全局信息;
基于上述全局信息利用上述第一多层感知器获取上述遮挡区域中心点序列和上述遮挡区域中心点结构特征。
可选的,上述形状点云重构操作包括第一拼接操作,第二多层感知器和第二拼接操作;
上述根据上述遮挡区域初始局部形状特征和上述编码器输出结构特征,利用上述解码器进行上述第二迭代运算和维度变换操作,以获取上述遮挡区域形状特征,利用上述遮挡区域形状特征、上述遮挡区域中心点序列和上述稀疏点云数据进行上述形状点云重构操作,获取上述遮挡目标整体形状点云数据,包括:
将上述遮挡区域初始局部形状特征作为上述解码器的首层输入形状特征,并结合上述编码器输出结构特征进行上述第二迭代运算以获取解码器输出形状特征,其中,上述第二迭代运算是基于特征自解码操作、特征交叉解码操作和第二前馈网络进行解码操作;
对上述解码器输出形状特征利用第三多层感知器进行上述维度变换操作以得到上述遮挡区域形状特征;
基于上述遮挡区域中心点序列和上述遮挡区域形状特征进行上述第一拼接操作得到第一拼接特征;
对上述第一拼接特征使用上述第二多层感知器进行空间映射以获取遮挡区域点云数据;
将上述遮挡区域点云数据和上述稀疏点云数据进行上述第二拼接操作以获取上述遮挡目标整体形状点云数据。
可选的,上述根据上述遮挡目标整体形状点云数据、已知区域点集和上述稀疏点云特征利用上述遮挡目标检测网络中的通道注意力融合操作获取聚合特征,包括:
在上述已知区域点集中点的邻域半径范围内采用第四多层感知器聚集上述遮挡目标整体形状点云数据,得到遮挡目标整体形状特征;
根据上述已知区域点集中点的索引号在上述稀疏点云特征中采样得到已知特征,利用卷积网络更新上述已知特征得到已知区域位置特征;
根据上述遮挡目标整体形状特征和上述已知区域位置特征采用第三拼接操作获得初始混合特征;
基于上述初始混合特征进行逐点池化操作获取到通道注意力特征;
对上述通道注意力特征进行第一线性投影操作和归一化操作,获得通道注意力图,将上述通道注意力图和上述已知区域位置特征相乘后进行第二线性投影操作得到上述聚合特征。
可选的,上述特征细化迭代计算包括第二迭代最远点采样操作、聚合操作、自注意力操作、第一交叉注意力操作、第三线性投影操作、第二交叉注意力操作和第三前馈网络;
上述基于上述聚合特征和上述已知区域点集利用上述遮挡目标检测网络中的多尺度transformer模型进行特征细化迭代计算获取遮挡目标全局特征,包括:
将上述聚合特征和上述已知区域点集分别作为上述多尺度transformer模型的首层输入特征和首层输入点集,基于上述多尺度transformer模型的首层输入点集进行上述第二迭代最远点采样操作获取首层中心点集合,其中,上述首层中心点集合为首层输出点集;
基于上述首层中心点集合采用上述聚合操作分别聚合上述多尺度transformer模型的首层输入特征得到首层第一尺度特征和首层第二尺度特征,对上述首层第一尺度特征进行上述自注意力操作以获取首层第一尺度自注意力特征,基于上述首层第一尺度自注意力特征和上述首层第二尺度特征进行上述第一交叉注意力操作获得首层第一分辨率特征;
对于上述首层输入特征,进行上述第三线性投影操作得到首层第二分辨率特征,基于上述首层第一分辨率特征和上述首层第二分辨率特征进行上述第二交叉注意力操作并通过上述第三前馈网络更新得到首层输出特征,完成上述特征细化迭代计算的第一次细化计算;
基于上述首层输出特征和上述首层输出点集通过上述多尺度transformer模型的剩余各层继续进行上述特征细化迭代计算的目标次数细化计算,得到上述多尺度transformer模型的最后一层输出点集和最后一层输出特征以生成上述遮挡目标全局特征,其中,上述多尺度transformer模型的剩余各层不包括上述多尺度transformer模型的首层。
可选的,上述基于上述遮挡目标全局特征进行上述遮挡目标检测网络中的置信度计算操作和位置回归操作,获取上述训练样本集中的遮挡目标的置信度分数和回归偏移量,基于上述置信度分数和上述回归偏移量利用损失函数约束更新上述遮挡目标检测网络的参数,学习生成遮挡目标检测模型,包括:
基于上述遮挡目标全局特征使用第一全连接神经网络进行上述置信度计算操作,生成上述训练样本集中的遮挡目标的置信度分数以判别上述遮挡目标的类别值;
基于上述遮挡目标全局特征使用第二全连接神经网络进行上述位置回归操作生成上述遮挡目标对应的候选框的回归偏移量,将上述候选框的长、宽、高、角度参数及中心点坐标与上述训练样本集中的真实目标框的长、宽、高、角度参数及中心点坐标之间的差值作为回归目标;
基于上述遮挡目标的类别值与上述训练样本集中的真实目标类别标签计算交叉熵分类损失,并基于上述遮挡目标对应的候选框的回归偏移量与上述回归目标计算位置回归损失,基于上述交叉熵分类损失与上述位置回归损失之和约束更新上述遮挡目标检测网络的参数,生成上述遮挡目标检测模型。
第二方面,本申请还提出一种遮挡目标检测装置,包括:
提取单元,用于获取训练样本集,输入至遮挡目标检测网络中,通过上述遮挡目标检测网络中的点云多尺度特征提取子网络获取上述训练样本集中的候选数据,其中,上述候选数据包括候选框、稀疏点云数据和稀疏点云特征;
编码解码单元,用于基于上述稀疏点云数据利用上述遮挡目标检测网络中的编码器和解码器进行迭代运算得到遮挡区域形状特征,根据上述遮挡区域形状特征进行上述遮挡目标检测网络中的形状点云重构操作得到遮挡目标整体形状点云数据;
融合单元,用于根据上述遮挡目标整体形状点云数据、已知区域点集和上述稀疏点云特征利用上述遮挡目标检测网络中的通道注意力融合操作获取聚合特征,其中,上述已知区域点集是基于上述稀疏点云数据随机采样得到的;
获取单元,用于基于上述聚合特征和上述已知区域点集利用上述遮挡目标检测网络中的多尺度transformer模型进行特征细化迭代计算获取遮挡目标全局特征;
生成单元,用于基于上述遮挡目标全局特征进行上述遮挡目标检测网络中的置信度计算操作和位置回归操作,获取上述训练样本集中的遮挡目标的置信度分数和回归偏移量,基于上述置信度分数和上述回归偏移量利用损失函数约束更新上述遮挡目标检测网络的参数,学习生成遮挡目标检测模型;
检测单元,用于采用上述遮挡目标检测模型对待检测样本集进行检测,得到遮挡目标检测框和遮挡目标类别信息,完成遮挡目标检测。
第三方面,一种电子设备,包括:存储器、处理器以及存储在上述存储器中并可在上述处理器上运行的计算机程序,上述处理器用于执行存储器中存储的计算机程序时实现如上述的第一方面任一项的遮挡目标检测方法的步骤。
第四方面,本发明还提出一种计算机可读存储介质,其上存储有计算机程序,上述计算机程序被处理器执行时实现第一方面上述任一项的遮挡目标检测方法。
综上,本申请提出了一种遮挡目标检测方法,通过将训练样本集输入至遮挡目标检测网络中,利用点云多尺度特征提取子网络获取场景点云中的候选数据,并通过编码器和解码器进行迭代运算补全重构候选框中稀疏点云数据的整体形状以增强遮挡目标的形状特征,基于通道注意力融合操作来聚合由补全重构操作获取到的遮挡目标整体形状特征和补全前候选框中蕴含遮挡目标位置信息的已知区域位置特征,以获取充分融合了遮挡目标的空间几何位置信息的聚合特征,并基于改进的多尺度transformer模型进行特征细化迭代计算以充分细化聚合特征,增强关键点信息,生成遮挡目标全局特征,最后基于遮挡目标全局特征进行置信度计算和位置回归操作得到置信度分数和回归偏移量,并与训练样本集中的真实标签数据利用损失函数计算损失值以约束调整遮挡目标检测网络的参数,学习得到遮挡目标检测模型以对待检测样本集进行检测,生成遮挡目标检测框和遮挡目标类别信息,完成遮挡目标检测。该遮挡目标检测方法中的补全重构操作基于编码器解码器架构有效提取稀疏点云数据的结构信息,重构出遮挡目标整体形状点云数据,以生成遮挡目标整体形状特征,增强遮挡目标的形状信息。该检测方法中的通道注意力融合操作能充分融合来自不同模式的具有不同语义信息的形状特征与位置特征,生成遮挡目标的空间几何信息增强的聚合特征。该检测方法中的多尺度transformer模型通过对不同尺度特征进行注意力交互计算有效捕捉蕴含了丰富的空间几何信息的聚合特征的多层次语义相关性,细化增强遮挡目标的关键点特征。该遮挡目标检测方法通过结合补全重构操作、通道注意力融合操作及多尺度transformer模型可重构遮挡目标的形状特征,细化遮挡目标关键点信息,有效提升遮挡目标的检测性能。
本发明的遮挡目标检测方法,本发明的其它优点、目标和特征将部分通过下面的说明体现,部分还将通过对本发明的研究和实践而为本领域的技术人员所理解。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本说明书的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为本申请实施例提供的一种遮挡目标检测方法流程示意图;
图2为本申请实施例提供的一种三维目标候选数据生成流程示意图;
图3为本申请实施例提供的一种遮挡目标检测模型的补全重构操作的结构示意图;
图4为本申请实施例提供的一种遮挡目标检测方法结构示意图;
图5为本申请实施例提供的一种遮挡目标检测方法与基准方法的检测准确率对比示意图;
图6为本申请实施例提供的一种采用本方法的检测效果示意图;
图7为本申请实施例提供的一种遮挡目标检测装置;
图8为本申请实施例提供的一种遮挡目标检测电子设备结构示意图。
具体实施方式
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。
请参阅图1,为本申请实施例中一种遮挡目标检测方法流程示意图,方法包括:
S110、获取训练样本集,输入至遮挡目标检测网络中,通过上述遮挡目标检测网络中的点云多尺度特征提取子网络获取上述训练样本集中的候选数据,其中,上述候选数据包括候选框、稀疏点云数据和稀疏点云特征;
示例性的,将由训练样本集中预先采集到的点云数据变换为固定大小为M×Dp的场景点云Ps输入至遮挡目标检测网络中,首先通过遮挡目标检测网络中的点云多尺度特征提取子网络提取得到大小为M×D0的场景点云特征Es,基于场景点云Ps中的前景点和场景点云特征Es,由区域建议生成网络(RPN)生成前景点对应的初始候选框集合,并使用非极大值抑制方法(NMS)去除冗余的初始候选框以得到剩余的Zc个初始候选框,根据Zc个初始候选框的参数在场景点云Ps中查找出对应的Zc个点云目标,并在Zc个点云目标中挑选出点的数量稀少且遮挡标签为3的遮挡严重的初始候选框中的H个点云目标,由于H个遮挡标签为3且点数稀少的点云目标特征稀少,缺乏空间几何信息,导致对应的H个初始候选框的位置参数不准确,因此H个初始候选框中的点云目标数据为实际遮挡目标的部分数据,由H个遮挡标签为3且点数稀少的点云目标对应的初始候选框构成大小为H×Db的候选框B,候选框B对应的点云数据构成大小为H×M1×Dp的稀疏点云数据Pr,基于候选框B和稀疏点云数据Pr在场景点云特征Es中裁剪出候选框中的稀疏点云特征Er,Er的大小为H×M1×D0,其中,M1为Pr、Er中点的数量,M为场景点云Ps和场景点云特征Es中点的数量,Dp为Pr、Ps中点的维度,D0为Es、Er的特征维度,H、Db为候选框B的维度,Zc,M,Dp,D0,H,Db,M1均为正整数。例如:将训练样本集中大小为16384×3的场景点云Ps输入至遮挡目标检测网络中,首先通过遮挡目标检测网络中的点云多尺度特征提取子网络提取得到大小为16384×128的场景点云特征Es,基于场景点云特征Es由区域建议生成网络(RPN)生成初始候选框集合,并在初始候选框集合中使用NMS方法挑选出64个初始候选框,并根据64个初始候选框的参数在场景点云Ps中查找到64个点云目标,并挑选出点的个数在100至2048之间且遮挡标签为3的遮挡严重的13个点云目标,对于点的数量不足2048的点云目标,采用补零操作,使其点的数量固定为2048,由此得到大小为13×2048×3的稀疏点云数据Pr及大小为13×7的候选框B,基于候选框B在场景点云特征Es中裁剪出大小为13×2048×128的稀疏点云特征Er。
S120、基于上述稀疏点云数据利用上述遮挡目标检测网络中的编码器和解码器进行迭代运算得到遮挡区域形状特征,根据上述遮挡区域形状特征进行上述遮挡目标检测网络中的形状点云重构操作得到遮挡目标整体形状点云数据;
示例性的,根据步骤S110获取到的候选框中的稀疏点云数据Pr利用遮挡目标检测网络中的编码器和遮挡目标检测网络中的解码器进行迭代运算生成大小为H×M2×D2的遮挡区域形状特征Eu,基于遮挡区域形状特征Eu进行遮挡目标检测网络中的形状点云重构操作生成大小为H×M3×Dp的遮挡目标整体形状点云数据Pc,其中,M2为Eu中点的数量,D2为Eu的特征维度,M3为Pc中点的数量,Dp为Pc中点的维度,M2,D2,M3,Dp均为正整数。
S130、根据上述遮挡目标整体形状点云数据、已知区域点集和上述稀疏点云特征利用上述遮挡目标检测网络中的通道注意力融合操作获取聚合特征,其中,上述已知区域点集是基于上述稀疏点云数据随机采样得到的;
示例性的,对于由步骤S110获取到的候选框中的稀疏点云数据Pr随机采样得到大小为H×M4×Dp的已知区域点集Proi,并基于已知区域点集Proi、由步骤S110获取到的稀疏点云特征Er和由步骤S120获取到的遮挡目标整体形状点云数据Pc执行遮挡目标检测网络中的通道注意力融合操作,得到大小为H×M4×D0的聚合特征Et,其中,M4为Proi,Et中点的数量,Dp为Proi中点的维度,D0为Et的特征维度,M4,Dp,D0均为正整数。
S140、基于上述聚合特征和上述已知区域点集利用上述遮挡目标检测网络中的多尺度transformer模型进行特征细化迭代计算获取遮挡目标全局特征;
示例性的,基于由步骤S130获取到的聚合特征Et和已知区域点集Proi,使用多尺度transformer模型进行特征细化迭代计算,得到大小为H×M6×D6的遮挡目标全局特征G,其中,M6为遮挡目标全局特征G中点的数量,D6为遮挡目标全局特征G的特征维度,M6,D6均为正整数。
S150、基于上述遮挡目标全局特征进行上述遮挡目标检测网络中的置信度计算操作和位置回归操作,获取上述训练样本集中的遮挡目标的置信度分数和回归偏移量,基于上述置信度分数和上述回归偏移量利用损失函数约束更新上述遮挡目标检测网络的参数,学习生成遮挡目标检测模型;
示例性的,基于由步骤S140获取到的遮挡目标全局特征G,分别进行遮挡目标检测网络中的置信度计算操作和遮挡目标检测网络中的位置回归操作,获取训练样本集中的遮挡目标的大小为H×D7的置信度分数Score和大小为H×Db的回归偏移量Res,基于置信度分数Score和回归偏移量Res利用损失函数计算损失以约束更新由步骤S110中的点云多尺度特征提取子网络和RPN、步骤S120中的编码器、解码器和形状点云重构操作、步骤S130中的通道注意力融合操作、步骤S140中的多尺度transformer模型及步骤S150中的置信度计算操作和位置回归操作构成的遮挡目标检测网络的参数,学习得到遮挡目标检测模型,其中,D7为Score的维度,Db为Res的维度,D7,Db均为正整数。
S160、采用上述遮挡目标检测模型对待检测样本集进行检测,得到遮挡目标检测框和遮挡目标类别信息,完成遮挡目标检测。
示例性的,获取待检测样本集,使用由步骤S150生成的遮挡目标检测模型对待检测样本集中的场景点云进行检测,即首先由步骤S110对场景点云进行初步检测得到待检测样本集中的候选数据,随后基于初步检测得到的候选数据执行步骤S120以重构待检测样本集中的遮挡目标的形状信息,然后执行步骤S130以基于通道注意力机制将待检测样本集中的遮挡目标的形状信息与位置信息进行融合得到已知区域点集和具有丰富的空间几何信息的聚合特征,并基于待检测样本集中的已知区域点集和遮挡目标的聚合特征执行步骤S140以细化待检测样本集中的遮挡目标的空间几何信息,生成Z个遮挡目标对应的遮挡目标全局特征,最后基于遮挡目标全局特征执行步骤S150中的置信度计算和位置回归操作生成待检测样本集中的Z个遮挡目标对应的遮挡目标类别信息和大小为Z×Db的遮挡目标检测框,完成遮挡目标检测,其中,Z,Db为遮挡目标检测框的维度,Z,Db均为正整数。例如:基于由步骤S150获取到的遮挡目标检测模型对待检测样本集中的场景点云进行检测,即通过顺序执行步骤S110、步骤S120、步骤S130、步骤S140和步骤S150中的置信度计算操作和位置回归操作,得到待检测样本集中的遮挡目标的置信度分数和回归偏移量,基于置信度分数判断出待检测样本集中的大小为11×1的遮挡目标类别信息为“车辆”、“行人”或“自行车”,基于回归偏移量与由执行步骤S110获取到的候选框的参数生成待检测样本集中的大小为11×7的遮挡目标检测框,以待检测样本集中某个遮挡目标为例,经过遮挡目标检测模型进行检测,生成长为4.16米,宽为1.56米,高为1.42米,中心点位于(4.58米,1.41米,33.13米),角度为72.80度的遮挡目标检测框,得到遮挡目标类别信息为“车辆”,完成遮挡目标检测。
综上,本申请提出了一种遮挡目标检测方法,通过将训练样本集输入至遮挡目标检测网络中,首先利用点云多尺度特征提取子网络获取场景点云中的候选数据,然后通过编码器和解码器进行迭代运算补全重构候选框中稀疏点云数据的整体形状以增强遮挡目标的形状特征,并基于通道注意力融合操作来聚合由补全重构操作获取到的遮挡目标整体形状特征和补全前候选框中蕴含遮挡目标位置信息的已知区域位置特征,以获取充分融合了遮挡目标的空间几何位置信息的聚合特征,并基于改进的多尺度transformer模型进行特征细化迭代计算以充分细化聚合特征,增强关键点信息,生成遮挡目标全局特征,最后基于遮挡目标全局特征进行置信度计算和位置回归操作得到置信度分数和回归偏移量,并与训练样本集中的真实标签数据利用损失函数计算损失值以约束调整遮挡目标检测网络的参数,学习得到遮挡目标检测模型以对待检测样本集进行检测,生成遮挡目标检测框和遮挡目标类别信息,完成遮挡目标检测。该遮挡目标检测方法中的补全重构操作基于编码器解码器架构有效提取稀疏点云数据的结构信息,重构出遮挡目标整体形状点云数据,以生成遮挡目标整体形状特征,增强遮挡目标的形状信息。该检测方法中的通道注意力融合操作能充分融合来自不同模式的具有不同语义信息的形状特征与位置特征,生成遮挡目标的空间几何信息增强的聚合特征。该检测方法中的多尺度transformer模型通过对不同尺度特征进行注意力交互计算有效捕捉蕴含了丰富的空间几何信息的聚合特征的多层次语义相关性,细化增强遮挡目标的关键点特征。该遮挡目标检测方法通过结合补全重构操作、通道注意力融合操作及多尺度transformer模型可重构遮挡目标的形状特征,细化遮挡目标关键点信息,有效提升遮挡目标的检测性能。
在一些实施方式中,上述迭代运算包括第一迭代运算和第二迭代运算;
步骤S120具体可以包括:
S1201、根据上述稀疏点云数据进行上述遮挡目标检测网络中的图嵌入操作获取图嵌入局部结构特征,基于上述图嵌入局部结构特征,利用上述编码器进行上述第一迭代运算得到编码器输出结构特征,对上述编码器输出结构特征进行上述遮挡目标检测网络中的投影映射操作,以获取遮挡区域中心点序列和遮挡区域中心点结构特征;
示例性的,基于步骤S110获取到的候选框中的稀疏点云数据Pr使用遮挡目标检测网络中的图嵌入操作得到大小为H×M2×D1的图嵌入局部结构特征Eq,并将Eq作为遮挡目标检测网络中的编码器的首层输入结构特征进行第一迭代计算,得到大小为H×M2×D1的编码器输出结构特征Eenc,基于编码器输出结构特征Eenc,使用遮挡目标检测网络中的投影映射操作,得到大小为H×M2×Dp的遮挡区域中心点序列Pu和大小为H×M2×D2的遮挡区域中心点结构特征Ecen,其中,M2为Eq,Eenc,Pu,Ecen中点的数量,D1为Eq,Eenc的特征维度,Dp为Pu中点的维度,D2为Ecen的特征维度,M2,D1,Dp,D2均为正整数。
在一些实施方式中,上述图嵌入操作包括第一迭代最远点采样操作、图卷积操作及第二嵌入操作,上述投影映射操作包括全局池化操作和第一多层感知器;步骤S1201具体可以包括:
S12011、对上述稀疏点云数据进行上述第一迭代最远点采样操作和上述图卷积操作获取已知区域中心点序列和已知区域拓扑特征;
S12012、将上述已知区域中心点序列和上述已知区域拓扑特征执行上述第二嵌入操作以获取上述图嵌入局部结构特征;
S12013、基于上述图嵌入局部结构特征,利用上述编码器进行上述第一迭代运算以获取上述编码器输出结构特征,其中,上述第一迭代运算是基于特征自编码操作和第一前馈网络进行编码的;
S12014、根据上述编码器输出结构特征利用上述全局池化操作提取全局信息;
S12015、基于上述全局信息利用上述第一多层感知器获取上述遮挡区域中心点序列和上述遮挡区域中心点结构特征。
示例性的,在遮挡目标检测网络中,对于步骤S110获取到的候选框中的稀疏点云数据Pr进行第一迭代最远点采样操作,得到大小为H×M2×Dp的已知区域中心点序列Kc,并基于Kc和Pr进行图卷积操作得到大小为H×M2×D1的已知区域拓扑特征Ef,并执行第二嵌入操作将已知区域中心点序列Kc嵌入至已知区域拓扑特征Ef中,得到图嵌入局部结构特征Eq,其中,M2为Kc,Ef中点的数量,Dp为Kc中点的维度,D1为Ef的特征维度,M2,Dp,D1均为正整数。
将图嵌入局部结构特征Eq作为编码器的首层输入结构特征S(1),即S(1)大小为H×M2×D1,S(1)由L层编码器通过第一迭代运算进行迭代更新与细化,第一迭代运算包括L次如式(1)所示的计算,编码器的第r层的大小为H×M2×D1的输入结构特征S(r)通过基于自注意力机制实现的特征自编码操作和第一前馈网络进行第r次如式(1)所示的计算,得到编码器的第r层的大小为H×M2×D1的输出结构特征S(r+1),其中,M2为S(1)、S(r)、S(r+1)中点的数量,D1为S(1)、S(r)、S(r+1)中点的特征维度,L,r,M2,D1均为正整数:
S(r+1)=ψ1(SAT(S(r))),r=1,...,L (1)
其中,ψ1为第一前馈网络,SAT表示进行特征自编码计算的特征自编码操作,δ为由softmax函数实现的归一化操作,表示矩阵转置操作,为S(r)的投影矩阵,大小均为H×M2×M2,d的值为其中,M2为的维度,M2,d,D1均为正整数。
编码器的第r层的输出结构特征S(r+1)作为编码器的第r+1层的输入结构特征被继续迭代更新,直至编码器的第L层。
编码器的首层输入结构特征S(1)基于L层编码器进行第一迭代运算,获取到编码器输出结构特征Eenc;
基于编码器输出结构特征Eenc,采用全局池化操作提取全局信息,并使用第一多层感知器分别将上述全局信息重塑为遮挡区域中心点序列Pu和遮挡区域中心点结构特征Ecen;
例如:在遮挡目标检测网络中,对步骤S110获取到的大小为13×2048×3的候选框中的稀疏点云数据Pr进行第一迭代最远点采样操作,得到大小为13×1024×3的已知区域中心点序列Kc,并基于Kc和Pr进行图卷积操作得到大小为13×1024×768的已知区域拓扑特征Ef,并基于Kc和Ef执行第二嵌入操作,得到大小为13×1024×768的图嵌入局部结构特征Eq,将Eq输入至三层编码器中作为编码器的首层输入结构特征S(1),经过编码器的第一层进行第一次如式(1)所示的计算得到编码器的第一层的输出结构特征S(2),即S(1)首先通过编码器的第一层的特征自编码操作得到大小为13×1024×768的自编码特征,然后该自编码特征由第一前馈网络进行更新得到编码器的第一层的大小为13×1024×768的输出结构特征S(2),S(2)作为编码器的第二层的输入结构特征,进行第二次如式(1)所示的计算,得到编码器的第二层的大小为13×1024×768的输出结构特征S(3),S(3)作为编码器的第三层的输入结构特征,进行第三次如式(1)所示的计算,得到编码器的第三层的大小为13×1024×768的输出结构特征S(4),S(4)作为编码器输出结构特征Eenc经过全局池化操作提取全局信息,并使用第一多层感知器分别将上述全局信息重塑为大小为13×1024×3的遮挡区域中心点序列Pu和大小为13×1024×1024的遮挡区域中心点结构特征Ecen。
S1202、对上述遮挡区域中心点序列和上述遮挡区域中心点结构特征执行上述遮挡目标检测网络中的第一嵌入操作得到遮挡区域初始局部形状特征;
示例性的,由步骤S1201获取到的遮挡区域中心点序列Pu和遮挡区域中心点结构特征Ecen,使用遮挡目标检测网络中的第一嵌入操作得到大小为H×M2×D1的遮挡区域初始局部形状特征Eloc,即首先使用对应的神经网络将遮挡区域中心点序列Pu的特征维度映射变换为遮挡区域中心点结构特征Ecen的特征维度,得到遮挡区域中心点特征,随后在通道维度上拼接遮挡区域中心点特征与遮挡区域中心点结构特征Ecen,并经过卷积层得到遮挡区域初始局部形状特征Eloc,其中,M2为遮挡区域初始局部形状特征Eloc中点的数量,D1为Eloc的特征维度,M2,D1均为正整数。例如:执行遮挡目标检测网络中的第一嵌入操作将步骤S1201获取到的大小为13×1024×3的遮挡区域中心点序列Pu嵌入至大小为13×1024×1024的遮挡区域中心点结构特征Ecen中,得到大小为13×1024×768的遮挡区域初始局部形状特征Eloc。
S1203、根据上述遮挡区域初始局部形状特征和上述编码器输出结构特征,利用上述解码器进行上述第二迭代运算和维度变换操作,以获取上述遮挡区域形状特征,利用上述遮挡区域形状特征、上述遮挡区域中心点序列和上述稀疏点云数据进行上述形状点云重构操作,获取上述遮挡目标整体形状点云数据。
示例性的,将由步骤S1202获取到的遮挡区域初始局部形状特征Eloc和由步骤S1201获取到的编码器输出结构特征Eenc输入至遮挡目标检测网络中的解码器进行第二迭代运算和维度变换操作,得到遮挡区域形状特征Eu,并对遮挡区域形状特征Eu,遮挡区域中心点序列Pu,稀疏点云数据Pr执行遮挡目标检测网络中的形状点云重构操作,得到遮挡目标整体形状点云数据Pc。
在一些实施方式中,上述形状点云重构操作包括第一拼接操作,第二多层感知器和第二拼接操作;步骤S1203具体可以包括步骤S12031-步骤S12035:
S12031、将上述遮挡区域初始局部形状特征作为上述解码器的首层输入形状特征,并结合上述编码器输出结构特征进行上述第二迭代运算以获取解码器输出形状特征,其中,上述第二迭代运算是基于特征自解码操作、特征交叉解码操作和第二前馈网络进行解码操作;
S12032、对上述解码器输出形状特征利用第三多层感知器进行上述维度变换操作以得到上述遮挡区域形状特征;
S12033、基于上述遮挡区域中心点序列和上述遮挡区域形状特征进行上述第一拼接操作得到第一拼接特征;
S12034、对上述第一拼接特征使用上述第二多层感知器进行空间映射以获取遮挡区域点云数据;
S12035、将上述遮挡区域点云数据和上述稀疏点云数据进行上述第二拼接操作以获取上述遮挡目标整体形状点云数据。
示例性的,将由步骤S1202中获取到的遮挡区域初始局部形状特征Eloc输入至遮挡目标检测网络中的解码器中作为解码器的首层输入形状特征U(1),结合由步骤S1201获取到的编码器输出结构特征Eenc,由L层解码器通过第二迭代运算进行迭代更新和细化,第二迭代运算包括L次如式(2)所示的计算,解码器的第r层的大小为H×M2×D1的输入形状特征U(r)经过第r次如式(2)所示的计算,得到解码器的第r层的大小为H×M2×D1的输出形状特征U(r +1),其中,M2为U(r)、U(r+1)中点的数量,D1为U(r)、U(r+1)的特征维度,L,r,M2,D1均为正整数;
U(r+1)=ψ2(CRT(SAT2(U(r)),Eenc)),r=1,...,L (2)
其中,SAT2表示进行特征自解码计算的特征自解码操作,大小均为H×M2×M2的为U(r)的投影矩阵,CRT表示特征交叉解码操作,大小为H×M2×M2的为SAT2(U(r))的投影矩阵,大小均为H×M2×M2的为Eenc的投影矩阵,ψ2为第二前馈网络,M2为 的维度,M2为正整数。
解码器的首层输入形状特征U(1)基于L层解码器进行第二迭代运算,获取到大小为H×M2×D1的解码器输出形状特征Edec,其中,M2为Edec中点的数量,D1为Edec的特征维度,M2,D1均为正整数。
对解码器输出形状特征Edec使用由第三多层感知器实现的维度变换操作,得到遮挡区域形状特征Eu。
使用第一拼接操作在通道维度上拼接由步骤S1201获得的遮挡区域中心点序列Pu与遮挡区域形状特征Eu,得到大小为H×M2×D3的第一拼接特征,并使用第二多层感知器对第一拼接特征进行空间映射,得到大小为H×M1×Dp的遮挡区域点云数据Pocc,再使用第二拼接操作在通道维度上拼接遮挡区域点云数据Pocc与由步骤S110获取到的稀疏点云数据Pr,得到遮挡目标整体形状点云数据Pc,其中,M2为第一拼接特征中点的数量,D3为第一拼接特征的特征维度,M1为遮挡区域点云数据Pocc中点的数量,Dp为Pocc中点的维度,M1,M2,D3,Dp均为正整数。
例如:将由步骤S1202中获取到的大小为13×1024×768的遮挡区域初始局部形状特征Eloc输入至三层解码器中作为首层输入形状特征U(1),在解码器的首层中进行第一次如式(2)所示的计算,即首先基于U(1)进行特征自解码操作得到大小为13×1024×768的自解码特征,然后基于自解码特征与由步骤S1201获取到的大小为13×1024×768的编码器输出结构特征Eenc进行特征交叉解码操作得到大小为13×1024×768的交叉解码特征,最后通过对应的第二前馈网络更新交叉解码特征,得到解码器的第一层的大小为13×1024×768的输出形状特征U(2);接着,将U(2)作为解码器的第二层的输入形状特征进行第二次如式(2)所示的计算得到解码器的第二层的大小为13×1024×768的输出形状特征U(3),U(3)作为解码器的第三层的输入形状特征,由解码器的第三层进行第三次如式(2)所示的计算得到解码器的第三层的输出形状特征,即大小为13×1024×768的解码器输出形状特征Edec,随后对解码器输出形状特征Edec使用由第三多层感知器实现的维度变换操作,获取到大小为13×1024×1024的遮挡区域形状特征Eu,并使用第一拼接操作拼接遮挡区域形状特征Eu与由步骤S1201获得的遮挡区域中心点序列Pu,得到大小为13×1024×1027的第一拼接特征,上述第一拼接特征被送入至第二多层感知器中进行空间映射,得到大小为13×2048×3的遮挡区域点云数据Pocc,并执行第二拼接操作拼接遮挡区域点云数据Pocc与由步骤S110获取到的大小为13×2048×3的稀疏点云数据Pr,得到大小为13×4096×3的遮挡目标整体形状点云数据Pc。
在一些实施方式中,步骤S130具体包括:
S1301、在上述已知区域点集中点的邻域半径范围内采用第四多层感知器聚集上述遮挡目标整体形状点云数据,得到遮挡目标整体形状特征;
S1302、根据上述已知区域点集中点的索引号在上述稀疏点云特征中采样得到已知特征,利用卷积网络更新上述已知特征得到已知区域位置特征;
S1303、根据上述遮挡目标整体形状特征和上述已知区域位置特征采用第三拼接操作获得初始混合特征;
S1304、基于上述初始混合特征进行逐点池化操作获取到通道注意力特征;
S1305、对上述通道注意力特征进行第一线性投影操作和归一化操作,获得通道注意力图,将上述通道注意力图和上述已知区域位置特征相乘后进行第二线性投影操作得到上述聚合特征。
示例性的,对于由步骤S120获取到的遮挡目标整体形状点云数据Pc,以已知区域点集Proi中各点为中心,在给定的邻域半径的范围内搜索遮挡目标整体形状点云数据Pc,得到邻域点集,并采用第四多层感知器在已知区域点集Proi中各点上分别聚集邻域点集,得到大小为H×M4×D0的遮挡目标整体形状特征Eall,并由已知区域点集Proi中各点的索引号在由步骤S110获取到的稀疏点云特征Er中采样得到已知特征,利用卷积网络更新已知特征得到大小为H×M4×D0的已知区域位置特征Eroi,其中,M4为Eall,Eroi中点的数量,D0为Eall,Eroi的特征维度,M4,D0均为正整数。
对于遮挡目标整体形状特征Eall和已知区域位置特征Eroi,执行第三拼接操作在特征维度上拼接Eall和Eroi,得到大小为H×M4×D4的初始混合特征Ecat,基于初始混合特征Ecat在特征维度上执行逐点池化操作,得到大小为H×M6×D4的通道注意力特征Emax,并对Emax执行由第一线性神经网络实现的第一线性投影操作和由softmax函数实现的归一化操作,得到大小为H×M6×D0的通道注意力图Emap,并对Emap与Eroi相乘得到的乘积进行由第二线性神经网络实现的第二线性投影操作,得到聚合特征Et,其中,M4为初始混合特征Ecat中点的数量,D4为初始混合特征Ecat、通道注意力特征Emax的特征维度,M6为通道注意力特征Emax、通道注意力图Emap中点的数量,D0为通道注意力图Emap的特征维度,M4,D4,M6,D0均为正整数。
例如:对于由步骤S110获取到的候选框中的稀疏点云数据Pr,随机采样512个点得到大小为13×512×3的已知区域点集Proi,以已知区域点集Proi中各点为中心,在0.2米的邻域半径范围内搜索由步骤S120获取到的遮挡目标整体形状点云数据Pc,得到邻域点集,并采用第四多层感知器在已知区域点集Proi中各点上分别聚集邻域点集,得到13×512×128的遮挡目标整体形状特征Eall,并由已知区域点集Proi中各点的索引号在由步骤S110获取到的稀疏点云特征Er中采样得到已知特征,利用卷积网络更新已知特征得到大小为13×512×128的已知区域位置特征Eroi;
在遮挡目标整体形状特征Eall和已知区域位置特征Eroi的特征维度上执行第三拼接操作,得到大小为13×512×256的初始混合特征Ecat,在Ecat的特征维度上执行逐点池化操作,得到大小为13×1×256的通道注意力特征Emax,并对Emax执行由第一线性神经网络实现的第一线性投影操作和由softmax函数实现的归一化操作,得到大小为13×1×128的通道注意力图Emap,将Emap与Eroi相乘后进行由第二线性神经网络实现的第二线性投影操作,得到大小为13×512×128的聚合特征Et。
在一些实施方式中,上述特征细化迭代计算包括第二迭代最远点采样操作、聚合操作、自注意力操作、第一交叉注意力操作、第三线性投影操作、第二交叉注意力操作和第三前馈网络;上述步骤S140具体可以包括S1401-S1404:
S1401、将上述聚合特征和上述已知区域点集分别作为上述多尺度transformer模型的首层输入特征和首层输入点集,基于上述多尺度transformer模型的首层输入点集进行上述第二迭代最远点采样操作获取首层中心点集合,其中,上述首层中心点集合为首层输出点集;
S1402、基于上述首层中心点集合采用上述聚合操作分别聚合上述多尺度transformer模型的首层输入特征得到首层第一尺度特征和首层第二尺度特征,对上述首层第一尺度特征进行上述自注意力操作以获取首层第一尺度自注意力特征,基于上述首层第一尺度自注意力特征和上述首层第二尺度特征进行上述第一交叉注意力操作获得首层第一分辨率特征;
S1403、对于上述首层输入特征,进行上述第三线性投影操作得到首层第二分辨率特征,基于上述首层第一分辨率特征和上述首层第二分辨率特征进行上述第二交叉注意力操作并通过上述第三前馈网络更新得到首层输出特征,完成上述特征细化迭代计算的第一次细化计算;
S1404、基于上述首层输出特征和上述首层输出点集通过上述多尺度transformer模型的剩余各层继续进行上述特征细化迭代计算的目标次数细化计算,得到上述多尺度transformer模型的最后一层输出点集和最后一层输出特征以生成上述遮挡目标全局特征,其中,上述多尺度transformer模型的剩余各层不包括上述多尺度transformer模型的首层。
示例性的,将由步骤S130获取到的聚合特征Et和已知区域点集Proi分别作为遮挡目标检测网络中的多尺度transformer模型的首层输入特征T(1)和首层输入点集X(1),输入至J层多尺度transformer模型进行特征细化迭代计算,其中特征细化迭代计算包括J次细化计算,其中,J为正整数,以特征细化迭代计算中的第n次细化计算为例:
对于多尺度transformer模型的第n层的大小为的输入特征T(n)和大小为的输入点集X(n),首先采用第二迭代最远点采样操作在X(n)中采样个点,构成多尺度transformer模型的第n层的大小为的中心点集合X(n+1),即X(n+1)为第n层多尺度transformer模型的输出点集,其中,为输入特征T(n)和输入点集X(n)中点的数量,为X(n+1)中点的数量,为输入特征T(n)的特征维度,Dp为X(n)、X(n+1)中点的维度,n, Dp均为正整数;
对于多尺度transformer模型的第n层的中心点集合X(n+1),查找输入点集X(n)中在中心点集合X(n+1)的第一半径范围内的a1个点,构成第一邻域半径点集,并使用第一聚合操作聚合由第一邻域半径点集中点的索引对应的输入特征T(n),得到多尺度transformer模型的第n层的大小为的第一尺度特征T1 (n+1),同时,查找输入点集X(n)中在中心点集合X(n+1)的第二半径范围内的a2个点,构成第二邻域半径点集,并使用第二聚合操作聚合第二邻域半径点集对应的输入特征T(n),得到多尺度transformer模型的第n层的大小为的第二尺度特征T2 (n+1),其中为T1 (n+1)、T2 (n+1)中点的数量,为T1 (n+1)、T2 (n+1)的维度,a1,a2,均为正整数;
基于多尺度transformer模型的第n层的第一尺度自注意力特征Ts (n+1)和第二尺度特征T2 (n+1)进行如式(4)所示的第一交叉注意力操作,得到多尺度transformer模型的第n层的大小为的第一分辨率特征Tq (n+1),其中,均为正整数:
基于多尺度transformer模型的第n层的输入特征T(n),执行由线性神经网络实现的第三线性投影操作,得到大小为的第二分辨率特征Tk (n+1),对于多尺度transformer模型的第n层的第二分辨率特征Tk (n+1)和第一分辨率特征Tq (n+1),执行第二交叉注意力操作得到交叉特征,利用第三前馈网络对交叉特征进行更新,得到多尺度transformer模型的第n层的输出特征T(n+1),T(n+1)的大小为其中,为Tk (n+1)中点的数量,为T(n+1)中点的数量,为T(n+1),Tk (n+1)的特征维度,均为正整数,第二交叉注意力操作和第三前馈网络的计算过程如(5)所示:
T(n-1)=ψ3(CrosT(Tq (n+1),Tk (n+1))),n=1,…,J (5)
多尺度transformer模型的第n层的输入点集X(n)和输入特征T(n)经过上述特征细化迭代计算中的第n次细化计算后得到输出点集X(n+1)和输出特征T(n+1),X(n+1)和T(n+1)被送入至多尺度transformer模型的第n+1层中继续进行循环迭代。
多尺度transformer模型的首层输入点集X(1)和首层输入特征T(1)经过J层多尺度transformer模型进行特征细化迭代计算,得到多尺度transformer模型的大小为的最后一层输出点集X(J+1)和大小为的最后一层输出特征T(J +1),将X(J+1)融入至T(J+1)中得到遮挡目标全局特征G,其中,表示X(J+1)、T(J+1)中点的数量,表示T(J+1)的特征维度、Dp表示X(J+1)中点的维度,Dp均为正整数。
例如:将由步骤S130获取到的大小为13×512×128的聚合特征Et和大小为13×512×3的已知区域点集Proi输入至遮挡目标检测网络中的三层多尺度transformer模型中,分别作为多尺度transformer模型的首层输入特征T(1)和首层输入点集X(1)进行特征细化迭代计算,在多尺度transformer模型的第一层中,首先使用第二迭代最远点采样操作在输入点集X(1)中采样得到大小为13×128×3的中心点集合X(2),并分别在0.2米的第一半径和0.4米的第二半径范围内查找8个点和16个点得到第一邻域半径点集和第二邻域半径点集,并聚集第一邻域半径点集和第二邻域半径点集对应的输入特征,得到大小为13×128×256的第一尺度特征T1 (2)和大小为13×128×256的第二尺度特征T2 (2)基于第一尺度特征T1 (2)进行自注意力操作得到大小为13×128×256的第一尺度自注意力特征Ts (2),并对于第一尺度自注意力特征Ts (2)和第二尺度特征T2 (2)进行第一交叉注意力操作得到大小为13×128×256的第一分辨率特征Tq (2),并对多尺度transformer模型的大小为13×512×128的首层输入特征T(1),执行由线性神经网络实现的第三线性投影操作,得到大小为13×512×256的第二分辨率特征Tk (2)基于第一分辨率特征Tq (2)和第二分辨率特征Tk (2)执行第二交叉注意力操作,其中,由大小为13×128×128的投影矩阵与第一分辨率特征Tq (2)相乘得到大小为13×128×256的query向量,由大小为13×512×512的投影矩阵V3 (1)分别与第二分辨率特征Tk (2)相乘获得大小均为13×512×256的key向量和value向量,上述query向量、key向量和value向量相乘得到大小为13×128×256的交叉特征,上述交叉特征经过第三前馈网络更新得到大小为13×128×256的多尺度transformer模型的首层输出特征T(2),多尺度transformer模型的第一层的中心点集合X(2)作为首层输出点集X(2),将首层输出点集X(2)和首层输出特征T(2)送入至多尺度transformer模型的第二层进行特征细化迭代计算中的第二次细化计算,得到多尺度transformer模型的第二层的大小为13×32×3的输出点集X(3)和大小为13×32×256的输出特征T(3),将X(3)和T(3)输入至多尺度transformer模型的第三层继续进行特征细化迭代计算中的第三次细化计算,得到多尺度transformer模型的第三层的大小为13×1×3的输出点集X(4)和大小为13×1×512的输出特征T(4),将X(4)融入至T(4)中得到大小为13×1×512的遮挡目标全局特征G。
在一些实施方式中,上述步骤S150包括步骤S1501至步骤S1503:
S1501、基于上述遮挡目标全局特征使用第一全连接神经网络进行上述置信度计算操作,生成上述训练样本集中的遮挡目标的置信度分数以判别上述遮挡目标的类别值;
S1502、基于上述遮挡目标全局特征使用第二全连接神经网络进行上述位置回归操作生成上述遮挡目标对应的候选框的回归偏移量,将上述候选框的长、宽、高、角度参数及中心点坐标与上述训练样本集中的真实目标框的长、宽、高、角度参数及中心点坐标之间的差值作为回归目标;
S1503、基于上述遮挡目标的类别值与上述训练样本集中的真实目标类别标签计算交叉熵分类损失,并基于上述遮挡目标对应的候选框的回归偏移量与上述回归目标计算位置回归损失,基于上述交叉熵分类损失与上述位置回归损失之和约束更新上述遮挡目标检测网络的参数,生成上述遮挡目标检测模型。
示例性的,基于由步骤S140获取到的遮挡目标全局特征G使用第一全连接神经网络进行置信度计算操作,得到大小为H×D7的置信度分数Score,根据置信度分数Score生成训练样本集中遮挡目标的类别值,根据该类别值与训练样本集中的遮挡目标对应的真实目标类别标签计算交叉熵损失,得到训练样本集的交叉熵分类损失,并基于遮挡目标全局特征G使用第二全连接神经网络进行位置回归操作生成候选框的大小为H×Db的回归偏移量Res,并将候选框与训练样本集中遮挡目标对应的真实目标框之间的大小为H×Db的参数残差Target作为回归目标,根据遮挡目标的回归偏移量Res与回归目标Target使用平滑L1损失函数计算位置回归损失,基于交叉熵分类损失与位置回归损失之和反向约束遮挡目标检测网络,并调整遮挡目标检测网络的参数,生成遮挡目标检测模型,完成遮挡目标检测网络的训练过程,其中,H、D7、Db为Res、Score、Target的维度,H、D7、Db均为正整数。
在一些实施方式中,如图4所示,本申请提出的遮挡目标检测方法中的遮挡目标检测模型结构分为五部分:候选数据生成模块、基于编码器-解码器结构的遮挡目标补全重构操作、通道注意力融合操作、特征细化模块和遮挡目标检测结果生成模块,其中,候选数据生成模块如图2所示,基于编码器-解码器结构的遮挡目标补全重构操作的结构图如图3所示。为采用本申请的遮挡目标检测方法得到检测结果,使用3D标准数据集KITTI对本发明方法中构建的遮挡目标检测网络进行训练得到遮挡目标检测模型,并使用3D标准数据集KITTI对遮挡目标检测模型进行测试评估,以验证本申请的遮挡目标检测方法的有效性和实用性。KITTI数据集提供了7481个训练样本和7518个测试样本,在本申请的遮挡目标检测方法实施过程中,将7481个训练样本划分出3712个样本构成训练样本集,3769个样本构成待检测样本集,根据场景样本的遮挡程度及遮挡目标占比,将待检测样本集划分为不同的遮挡级别,其中,遮挡级别最高的样本构成严重遮挡级别样本集,其场景中存在大量遮挡目标,剩余的样本构成普通遮挡级别样本集。
图5给出了本发明方法与4种基准方法在待检测样本集中的两种遮挡级别样本上的检测准确率的对比结果。由图5可知,在待检测样本集中的严重遮挡级别样本上本发明方法能达到优异的检测性能且检测准确率明显高于其他4种基准方法,证明了本方法对于检测遮挡目标的有效性,同时,对于待检测样本集中普通遮挡级别样本场景,本方法也能取得显著的检测性能,且检测准确率明显高于其他基准方法,表明本方法可有效提升整体场景目标检测性能,证明了本方法的实用性。
图6为在KITTI数据集的待检测样本集上评估本申请的遮挡目标检测方法得到的检测效果示意图,对图6中的第一幅图中的场景点云执行如图4所示的本发明方法构建的遮挡目标检测模型,有效检测到场景中的11个遮挡目标的检测框及类别信息“车辆”。对于图6的其他三组图中的场景点云,执行如图4所示的本发明方法构建的遮挡目标检测模型均可准确检测得到场景中各遮挡目标对应的目标检测框和类别信息,表明本发明方法在不同的遮挡严重的场景下均能有效检测出遮挡目标,证明了本申请提出的基于重构遮挡目标形状特征并有效增强细化遮挡目标的空间几何信息的遮挡目标检测方法能够有效提升遮挡目标的检测性能。当然,这里采用的KITTI数据集仅为举例,实际中还可以通过其他公开数据集或者用户自身准备的点云数据进行训练和评估。
综上所述,本发明提供的遮挡目标检测方法有较高的理论价值,对于具有大量遮挡目标的不同类型的复杂场景样本,本方法均能有效检测定位复杂场景中的遮挡目标,取得优异的检测性能,检测精度明显高于其他方法,且该方法已通过软件实现,工程应用价值大。
请参阅图7,本发明还提出一种遮挡目标检测装置,包括:
提取单元21,用于获取训练样本集,输入至遮挡目标检测网络中,通过上述遮挡目标检测网络中的点云多尺度特征提取子网络获取上述训练样本集中的候选数据,其中,上述候选数据包括候选框、稀疏点云数据和稀疏点云特征;
编码解码单元22,用于基于上述稀疏点云数据利用上述遮挡目标检测网络中的编码器和解码器进行迭代运算得到遮挡区域形状特征,根据上述遮挡区域形状特征进行上述遮挡目标检测网络中的形状点云重构操作得到遮挡目标整体形状点云数据;
融合单元23,用于根据上述遮挡目标整体形状点云数据、已知区域点集和上述稀疏点云特征利用上述遮挡目标检测网络中的通道注意力融合操作获取聚合特征,其中,上述已知区域点集是基于上述稀疏点云数据随机采样得到的;
获取单元24,用于基于上述聚合特征和上述已知区域点集利用上述遮挡目标检测网络中的多尺度transformer模型进行特征细化迭代计算获取遮挡目标全局特征;
生成单元25,用于基于上述遮挡目标全局特征进行上述遮挡目标检测网络中的置信度计算操作和位置回归操作,获取上述训练样本集中的遮挡目标的置信度分数和回归偏移量,基于上述置信度分数和上述回归偏移量利用损失函数约束更新上述遮挡目标检测网络的参数,学习生成遮挡目标检测模型;
检测单元26,用于采用上述遮挡目标检测模型对待检测样本集进行检测,得到遮挡目标检测框和遮挡目标类别信息,完成遮挡目标检测。
如图8所示,本申请实施例还提供一种电子设备300,包括存储器310、处理器320及存储在存储器320上并可在处理器上运行的计算机程序311,处理器320执行计算机程序311时实现上述遮挡目标检测的任一方法的步骤。
由于本实施例所介绍的电子设备为实施本申请实施例中一种遮挡目标检测装置所采用的设备,故而基于本申请实施例中所介绍的方法,本领域所属技术人员能够了解本实施例的电子设备的具体实施方式以及其各种变化形式,所以在此对于该电子设备如何实现本申请实施例中的方法不再详细介绍,只要本领域所属技术人员实施本申请实施例中的方法所采用的设备,都属于本申请所欲保护的范围。
在具体实施过程中,该计算机程序311被处理器执行时可以实现图1对应的实施例中任一实施方式。
需要说明的是,在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详细描述的部分,可以参见其它实施例的相关描述。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式计算机或者其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本申请实施例还提供了一种计算机程序产品,该计算机程序产品包括计算机软件指令,当计算机软件指令在处理设备上运行时,使得处理设备执行如图1对应实施例中的遮挡目标检测方法的流程。
计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时,全部或部分地产生按照本申请实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一计算机可读存储介质传输,例如,计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line,DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘(solid state disk,SSD))等。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (10)
1.一种遮挡目标检测方法,其特征在于,包括:
获取训练样本集,输入至遮挡目标检测网络中,通过所述遮挡目标检测网络中的点云多尺度特征提取子网络获取所述训练样本集中的候选数据,其中,所述候选数据包括候选框、稀疏点云数据和稀疏点云特征;
基于所述稀疏点云数据利用所述遮挡目标检测网络中的编码器和解码器进行迭代运算得到遮挡区域形状特征,根据所述遮挡区域形状特征进行所述遮挡目标检测网络中的形状点云重构操作得到遮挡目标整体形状点云数据;
根据所述遮挡目标整体形状点云数据、已知区域点集和所述稀疏点云特征利用所述遮挡目标检测网络中的通道注意力融合操作获取聚合特征,其中,所述已知区域点集是基于所述稀疏点云数据随机采样得到的;
基于所述聚合特征和所述已知区域点集利用所述遮挡目标检测网络中的多尺度transformer模型进行特征细化迭代计算获取遮挡目标全局特征;
基于所述遮挡目标全局特征进行所述遮挡目标检测网络中的置信度计算操作和位置回归操作,获取所述训练样本集中的遮挡目标的置信度分数和回归偏移量,基于所述置信度分数和所述回归偏移量利用损失函数约束更新所述遮挡目标检测网络的参数,学习生成遮挡目标检测模型;
采用所述遮挡目标检测模型对待检测样本集进行检测,得到遮挡目标检测框和遮挡目标类别信息,完成遮挡目标检测。
2.如权利要求1所述的方法,其特征在于,所述迭代运算包括第一迭代运算和第二迭代运算;
所述基于所述稀疏点云数据利用所述遮挡目标检测网络中的编码器和解码器进行迭代运算得到遮挡区域形状特征,根据所述遮挡区域形状特征进行所述遮挡目标检测网络中的形状点云重构操作得到遮挡目标整体形状点云数据,包括:
根据所述稀疏点云数据进行所述遮挡目标检测网络中的图嵌入操作获取图嵌入局部结构特征,基于所述图嵌入局部结构特征,利用所述编码器进行所述第一迭代运算得到编码器输出结构特征,对所述编码器输出结构特征进行所述遮挡目标检测网络中的投影映射操作,以获取遮挡区域中心点序列和遮挡区域中心点结构特征;
对所述遮挡区域中心点序列和所述遮挡区域中心点结构特征执行所述遮挡目标检测网络中的第一嵌入操作得到遮挡区域初始局部形状特征;
根据所述遮挡区域初始局部形状特征和所述编码器输出结构特征,利用所述解码器进行所述第二迭代运算和维度变换操作,以获取所述遮挡区域形状特征,利用所述遮挡区域形状特征、所述遮挡区域中心点序列和所述稀疏点云数据进行所述形状点云重构操作,获取所述遮挡目标整体形状点云数据。
3.如权利要求2所述的方法,其特征在于,所述图嵌入操作包括第一迭代最远点采样操作、图卷积操作及第二嵌入操作,所述投影映射操作包括全局池化操作和第一多层感知器;
所述根据所述稀疏点云数据进行所述遮挡目标检测网络中的图嵌入操作获取图嵌入局部结构特征,基于所述图嵌入局部结构特征,利用所述编码器进行所述第一迭代运算得到编码器输出结构特征,对所述编码器输出结构特征进行所述遮挡目标检测网络中的投影映射操作,以获取遮挡区域中心点序列和遮挡区域中心点结构特征,包括:
对所述稀疏点云数据进行所述第一迭代最远点采样操作和所述图卷积操作获取已知区域中心点序列和已知区域拓扑特征;
将所述已知区域中心点序列和所述已知区域拓扑特征执行所述第二嵌入操作以获取所述图嵌入局部结构特征;
基于所述图嵌入局部结构特征,利用所述编码器进行所述第一迭代运算以获取所述编码器输出结构特征,其中,所述第一迭代运算是基于特征自编码操作和第一前馈网络进行编码的;
根据所述编码器输出结构特征利用所述全局池化操作提取全局信息;
基于所述全局信息利用所述第一多层感知器获取所述遮挡区域中心点序列和所述遮挡区域中心点结构特征。
4.如权利要求2所述的方法,其特征在于,所述形状点云重构操作包括第一拼接操作,第二多层感知器和第二拼接操作;
所述根据所述遮挡区域初始局部形状特征和所述编码器输出结构特征,利用所述解码器进行所述第二迭代运算和维度变换操作,以获取所述遮挡区域形状特征,利用所述遮挡区域形状特征、所述遮挡区域中心点序列和所述稀疏点云数据进行所述形状点云重构操作,获取所述遮挡目标整体形状点云数据,包括:
将所述遮挡区域初始局部形状特征作为所述解码器的首层输入形状特征,并结合所述编码器输出结构特征进行所述第二迭代运算以获取解码器输出形状特征,其中,所述第二迭代运算是基于特征自解码操作、特征交叉解码操作和第二前馈网络进行解码操作;
对所述解码器输出形状特征利用第三多层感知器进行所述维度变换操作以得到所述遮挡区域形状特征;
基于所述遮挡区域中心点序列和所述遮挡区域形状特征进行所述第一拼接操作得到第一拼接特征;
对所述第一拼接特征使用所述第二多层感知器进行空间映射以获取遮挡区域点云数据;
将所述遮挡区域点云数据和所述稀疏点云数据进行所述第二拼接操作以获取所述遮挡目标整体形状点云数据。
5.如权利要求1所述的方法,其特征在于,所述根据所述遮挡目标整体形状点云数据、已知区域点集和所述稀疏点云特征利用所述遮挡目标检测网络中的通道注意力融合操作获取聚合特征,包括:
在所述已知区域点集中点的邻域半径范围内采用第四多层感知器聚集所述遮挡目标整体形状点云数据,得到遮挡目标整体形状特征;
根据所述已知区域点集中点的索引号在所述稀疏点云特征中采样得到已知特征,利用卷积网络更新所述已知特征得到已知区域位置特征;
根据所述遮挡目标整体形状特征和所述已知区域位置特征采用第三拼接操作获得初始混合特征;
基于所述初始混合特征进行逐点池化操作获取到通道注意力特征;
对所述通道注意力特征进行第一线性投影操作和归一化操作,获得通道注意力图,将所述通道注意力图和所述已知区域位置特征相乘后进行第二线性投影操作得到所述聚合特征。
6.如权利要求1所述的方法,其特征在于,所述特征细化迭代计算包括第二迭代最远点采样操作、聚合操作、自注意力操作、第一交叉注意力操作、第三线性投影操作、第二交叉注意力操作和第三前馈网络;
所述基于所述聚合特征和所述已知区域点集利用所述遮挡目标检测网络中的多尺度transformer模型进行特征细化迭代计算获取遮挡目标全局特征,包括:
将所述聚合特征和所述已知区域点集分别作为所述多尺度transformer模型的首层输入特征和首层输入点集,基于所述多尺度transformer模型的首层输入点集进行所述第二迭代最远点采样操作获取首层中心点集合,其中,所述首层中心点集合为首层输出点集;
基于所述首层中心点集合采用所述聚合操作分别聚合所述多尺度transformer模型的首层输入特征得到首层第一尺度特征和首层第二尺度特征,对所述首层第一尺度特征进行所述自注意力操作以获取首层第一尺度自注意力特征,基于所述首层第一尺度自注意力特征和所述首层第二尺度特征进行所述第一交叉注意力操作获得首层第一分辨率特征;
对于所述首层输入特征,进行所述第三线性投影操作得到首层第二分辨率特征,基于所述首层第一分辨率特征和所述首层第二分辨率特征进行所述第二交叉注意力操作并通过所述第三前馈网络更新得到首层输出特征,完成所述特征细化迭代计算的第一次细化计算;
基于所述首层输出特征和所述首层输出点集通过所述多尺度transformer模型的剩余各层继续进行所述特征细化迭代计算的目标次数细化计算,得到所述多尺度transformer模型的最后一层输出点集和最后一层输出特征以生成所述遮挡目标全局特征,其中,所述多尺度transformer模型的剩余各层不包括所述多尺度transformer模型的首层。
7.如权利要求1所述的方法,其特征在于,所述基于所述遮挡目标全局特征进行所述遮挡目标检测网络中的置信度计算操作和位置回归操作,获取所述训练样本集中的遮挡目标的置信度分数和回归偏移量,基于所述置信度分数和所述回归偏移量利用损失函数约束更新所述遮挡目标检测网络的参数,学习生成遮挡目标检测模型,包括:
基于所述遮挡目标全局特征使用第一全连接神经网络进行所述置信度计算操作,生成所述训练样本集中的遮挡目标的置信度分数以判别所述遮挡目标的类别值;
基于所述遮挡目标全局特征使用第二全连接神经网络进行所述位置回归操作生成所述遮挡目标对应的候选框的回归偏移量,将所述候选框的长、宽、高、角度参数及中心点坐标与所述训练样本集中的真实目标框的长、宽、高、角度参数及中心点坐标之间的差值作为回归目标;
基于所述遮挡目标的类别值与所述训练样本集中的真实目标类别标签计算交叉熵分类损失,并基于所述遮挡目标对应的候选框的回归偏移量与所述回归目标计算位置回归损失,基于所述交叉熵分类损失与所述位置回归损失之和约束更新所述遮挡目标检测网络的参数,生成所述遮挡目标检测模型。
8.一种遮挡目标检测装置,其特征在于,包括:
提取单元,用于获取训练样本集,输入至遮挡目标检测网络中,通过所述遮挡目标检测网络中的点云多尺度特征提取子网络获取所述训练样本集中的候选数据,其中,所述候选数据包括候选框、稀疏点云数据和稀疏点云特征;
编码解码单元,用于基于所述稀疏点云数据利用所述遮挡目标检测网络中的编码器和解码器进行迭代运算得到遮挡区域形状特征,根据所述遮挡区域形状特征进行所述遮挡目标检测网络中的形状点云重构操作得到遮挡目标整体形状点云数据;
融合单元,用于根据所述遮挡目标整体形状点云数据、已知区域点集和所述稀疏点云特征利用所述遮挡目标检测网络中的通道注意力融合操作获取聚合特征,其中,所述已知区域点集是基于所述稀疏点云数据随机采样得到的;
获取单元,用于基于所述聚合特征和所述已知区域点集利用所述遮挡目标检测网络中的多尺度transformer模型进行特征细化迭代计算获取遮挡目标全局特征;
生成单元,用于基于所述遮挡目标全局特征进行所述遮挡目标检测网络中的置信度计算操作和位置回归操作,获取所述训练样本集中的遮挡目标的置信度分数和回归偏移量,基于所述置信度分数和所述回归偏移量利用损失函数约束更新所述遮挡目标检测网络的参数,学习生成遮挡目标检测模型;
检测单元,用于采用所述遮挡目标检测模型对待检测样本集进行检测,得到遮挡目标检测框和遮挡目标类别信息,完成遮挡目标检测。
9.一种电子设备,包括:存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1-7中任一项所述的遮挡目标检测方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的遮挡目标检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210802847.6A CN115331194A (zh) | 2022-07-07 | 2022-07-07 | 遮挡目标检测方法及相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210802847.6A CN115331194A (zh) | 2022-07-07 | 2022-07-07 | 遮挡目标检测方法及相关设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115331194A true CN115331194A (zh) | 2022-11-11 |
Family
ID=83916837
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210802847.6A Pending CN115331194A (zh) | 2022-07-07 | 2022-07-07 | 遮挡目标检测方法及相关设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115331194A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116612279A (zh) * | 2023-04-28 | 2023-08-18 | 广东科技学院 | 目标检测的方法、装置、网络设备及存储介质 |
-
2022
- 2022-07-07 CN CN202210802847.6A patent/CN115331194A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116612279A (zh) * | 2023-04-28 | 2023-08-18 | 广东科技学院 | 目标检测的方法、装置、网络设备及存储介质 |
CN116612279B (zh) * | 2023-04-28 | 2024-02-02 | 广东科技学院 | 目标检测的方法、装置、网络设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Weld et al. | Deep learning for automatically detecting sidewalk accessibility problems using streetscape imagery | |
CN115953665B (zh) | 一种目标检测方法、装置、设备及存储介质 | |
CN112529015A (zh) | 一种基于几何解缠的三维点云处理方法、装置及设备 | |
Liu et al. | 3D Point cloud analysis | |
KR20130142191A (ko) | 비주얼 탐색을 위한 강건한 특징 매칭 | |
CN113592015B (zh) | 定位以及训练特征匹配网络的方法和装置 | |
CN116246119A (zh) | 3d目标检测方法、电子设备及存储介质 | |
CN115222954A (zh) | 弱感知目标检测方法及相关设备 | |
CN114648669A (zh) | 一种域自适应双目视差计算的动车组故障检测方法及系统 | |
CN115937520A (zh) | 基于语义信息引导的点云运动目标分割方法 | |
CN116664856A (zh) | 基于点云-图像多交叉混合的三维目标检测方法、系统及存储介质 | |
CN114358133B (zh) | 一种基于语义辅助双目视觉slam检测回环帧的方法 | |
He et al. | Building extraction from remote sensing images via an uncertainty-aware network | |
CN115331194A (zh) | 遮挡目标检测方法及相关设备 | |
Huang et al. | ES-Net: An efficient stereo matching network | |
CN114332533A (zh) | 一种基于DenseNet的滑坡图像识别方法和系统 | |
CN117789160A (zh) | 一种基于聚类优化的多模态融合目标检测方法及系统 | |
JP2023508276A (ja) | 多重解像度ボクセルにおける共分散を含むマップ | |
CN117557980A (zh) | 一种基于卷积注意力和特征解耦的单目三维目标检测方法 | |
CN117037102A (zh) | 对象跟随方法、装置、计算机设备和存储介质 | |
CN115223146A (zh) | 障碍物检测方法、装置、计算机设备和存储介质 | |
CN111414802B (zh) | 蛋白质数据特征提取方法 | |
Bergius et al. | Lidar point cloud de-noising for adverse weather | |
CN114913519A (zh) | 一种3d目标检测方法、装置、电子设备及存储介质 | |
CN116052122B (zh) | 一种可行驶空间的检测方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |