CN116664854A - 目标检测方法、装置、电子设备及机器可读存储介质 - Google Patents
目标检测方法、装置、电子设备及机器可读存储介质 Download PDFInfo
- Publication number
- CN116664854A CN116664854A CN202310581735.7A CN202310581735A CN116664854A CN 116664854 A CN116664854 A CN 116664854A CN 202310581735 A CN202310581735 A CN 202310581735A CN 116664854 A CN116664854 A CN 116664854A
- Authority
- CN
- China
- Prior art keywords
- foreground
- target
- voxel
- cluster
- target cluster
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 98
- 238000000605 extraction Methods 0.000 claims abstract description 108
- 230000007246 mechanism Effects 0.000 claims abstract description 54
- 238000000034 method Methods 0.000 claims abstract description 30
- 230000002776 aggregation Effects 0.000 claims description 9
- 238000004220 aggregation Methods 0.000 claims description 9
- 239000013598 vector Substances 0.000 claims description 6
- 238000011176 pooling Methods 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 239000011159 matrix material Substances 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000005192 partition Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 241001300198 Caperonia palustris Species 0.000 description 1
- 235000000384 Veronica chamaedrys Nutrition 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/762—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本申请提供一种目标检测方法、装置、电子设备及机器可读存储介质,该方法包括:对输入点云数据进行体素化,并进行体素化特征初步提取,得到输入点云数据的初始体素特征;依据所述初始体素特征,对所述输入点云数据对应的非空体素进行前景和背景的分类,并确定各前景体素相对其目标中心点的偏移;依据各前景体素相对其目标中心点的偏移,对前景体素进行聚类,得到聚类后的目标簇;对于任一目标簇,利用自注意力机制对该目标簇内各前景体素进行特征提取,得到该目标簇内各前景体素的目标级别特征;依据各前景体素的目标级别特征,进行目标检测,生成目标检测框。该方法可以改善检测性能。
Description
技术领域
本申请涉及数据处理技术领域,尤其涉及一种目标检测方法、装置、电子设备及机器可读存储介质。
背景技术
由于点云数据的稀疏和无结构性,Transformer(一种网络结构)在点云数据中展现出更大的潜力,相比于传统基于稀疏卷积的点云特征提取方,基于Transformer的点云特征提取方法可以捕获更大感受野下的上下文信息。
目前,基于Transformer的点云特征提取方法都会依赖于窗口的机制,即将所有体素按照窗口进行划分并输入到自注意力机制中进行运算提取特征。
然而,上述方案中窗口划分的方式过于依赖人为设置,且窗口大小不能自适应调整,对于不同尺度的目标窗口大小依然保持一致会影响目标的检测性能。
发明内容
有鉴于此,本申请提供一种目标检测方法、装置、电子设备及机器可读存储介质,以优化目标检测性能。
具体地,本申请是通过如下技术方案实现的:
根据本申请实施例的第一方面,提供一种目标检测方法,包括:
对输入点云数据进行体素化,并进行体素化特征初步提取,得到输入点云数据的初始体素特征;
依据所述初始体素特征,对所述输入点云数据对应的非空体素进行前景和背景的分类,并确定各前景体素相对其目标中心点的偏移;
依据各前景体素相对其目标中心点的偏移,对前景体素进行聚类,得到聚类后的目标簇;
对于任一目标簇,利用自注意力机制对该目标簇内各前景体素进行特征提取,得到该目标簇内各前景体素的目标级别特征;
依据各前景体素的目标级别特征,进行目标检测,生成目标检测框。
根据本申请实施例的第二方面,提供一种目标检测装置,包括:
初始特征提取单元,用于对输入点云数据进行体素化,并进行体素化特征初步提取,得到输入点云数据的初始体素特征;
目标级别特征提取单元,用于依据所述初始体素特征,对所述输入点云数据对应的非空体素进行前景和背景的分类,并确定各前景体素相对其目标中心点的偏移;依据各前景体素相对其目标中心点的偏移,对前景体素进行聚类,得到聚类后的目标簇;对于任一目标簇,利用自注意力机制对该目标簇内各前景体素进行特征提取,得到该目标簇内各前景体素的目标级别特征;
目标检测单元,用于依据各前景体素的目标级别特征,进行目标检测,生成目标检测框。
根据本申请实施例的第三方面,提供一种电子设备,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的机器可执行指令,所述处理器用于执行机器可执行指令,以实现第一方面提供的方法。
根据本申请实施例的第四方面,提供一种机器可读存储介质,所述机器可读存储介质内存储有机器可执行指令,所述机器可执行指令被处理器执行时实现第一方面提供的方法。
本申请提供的技术方案至少可以带来以下有益效果:
通过对输入点云数据进行体素化,并进行体素化特征初步提取,得到输入点云数据的初始体素特征,依据得到的体素特征,对输入点云数据对应的非空体素进行前景和背景的分类,并确定各前景体素相对其目标中心点的偏移,依据各前景体素相对其目标中心点的偏移,对前景体素进行聚类,得到聚类后的目标簇,进而,对于任一目标簇,利用自注意力机制对该目标簇内各前景体素进行特征提取,得到该目标簇内各前景体素的目标级别特征,并依据各前景体素的目标级别特征,进行目标检测,生成目标检测框,基于簇划分的特征提取可以自适应调整每个体素参与注意力计算的范围,并且每个簇可以主要由同一个目标的体素组成,从而使得模型关注于目标级别特征的提取,改善检测性能。
附图说明
图1是本申请示例性实施例示出的一种目标检测方法的流程示意图;
图2是本申请示例性实施例示出的一种基于注意力的点云特征提取和目标检测方案的整体框图;
图3是本申请示例性实施例示出的一种目标检测装置的结构示意图;
图4是本申请示例性实施例示出的另一种目标检测装置的结构示意图;
图5是本申请示例性实施例示出的另一种目标检测装置的结构示意图;
图6是本申请示例性实施例示出的一种电子设备的硬件结构示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
为了使本领域技术人员更好地理解本申请实施例提供的技术方案,并使本申请实施例的上述目的、特征和优点能够更加明显易懂,下面结合附图对本申请实施例中技术方案作进一步详细的说明。
需要说明的是,本申请实施例中各步骤的序号大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
请参见图1,为本申请实施例提供的一种目标检测方法的流程示意图,如图1所示,该目标检测方法可以包括以下步骤:
步骤S100、对输入点云数据进行体素化,并进行体素化特征提取,得到输入点云数据的初始体素特征。
示例性的,输入点云数据可以包括雷达点云数据,其可以包括但不限于自动驾驶或智能交通等邻域中部署的雷达(如激光雷达)获取到的点云数据。
例如,对于自动驾驶场景,输入点云数据可以为车载激光雷达获取到的激光雷达点云数据。
其中,体素为点云的一种规则化表示形式。
示例性的,可以在每个体素内利用PointNet(一种点云神经网络)进行特征提取,得到输入点云数据的体素特征(可以称为初始体素特征)。
步骤S110、依据初始体素特征,对输入点云数据对应的非空体素进行前景和背景的分类,并确定各前景体素相对其目标中心点的偏移。
示例性的,可以通过预先训练的神经网络模型预测前景体素相对其目标中心点(即前景体素所归属的目标的中心点)的偏移。
步骤S120、依据各前景体素相对其目标中心点的偏移,对前景体素进行聚类,得到聚类后的目标簇。
本申请实施例中,在确定了各前景体素相对其目标中心点的偏移的情况下,可以依据各前景体素相对其目标中心点的偏移,对前景体素进行聚类,得到聚类后的目标簇,将可能属于同一目标的前景体素聚类到一个目标簇。
步骤S130、对于任一目标簇,利用自注意力机制对该目标簇内各前景体素进行特征提取,得到该目标簇内各前景体素的目标级别特征。
本申请实施例中,考虑到传统点云神经网络所提取的体素特征感受野有限,并且缺乏目标级别的信息,影响了特征的表达能力,不利于点云的目标检测,因此,可以引入Transformer中的自注意力机制来获取更大感受野的上下信息以改善点云目标检测精度。
相应地,对于任一目标簇,可以利用自注意力机制对该目标簇内各前景体素进行特征提取,得到该目标簇内各前景体素的体素特征(可以称为目标级别体素特征)。
步骤S140、依据各前景体素的目标级别特征,进行目标检测,生成目标检测框。
本申请实施例中,可以依据各前景体素的目标级别特征,进行目标检测,生成目标检测框。
示例性的,目标检测框可以通过位置信息、长宽高、朝向信息以及语义类别来表征。
示例性的,目标检测框的位置信息可以通过目标检测框的中心点与对应的目标簇的中心坐标之间的偏移来表征。
示例性的,对于任一目标簇,该目标簇的中心坐标可以为该目标簇中各移动后的前景体素的坐标的平均值。
可见,在图1所示方法流程中,通过对输入点云数据进行体素化,并进行体素化特征初步提取,得到输入点云数据的初始体素特征,依据得到的体素特征,对输入点云数据对应的非空体素进行前景和背景的分类,并确定各前景体素相对其目标中心点的偏移,依据各前景体素相对其目标中心点的偏移,对前景体素进行聚类,得到聚类后的目标簇,进而,对于任一目标簇,利用自注意力机制对该目标簇内各前景体素进行特征提取,得到该目标簇内各前景体素的目标级别特征,并依据各前景体素的目标级别特征,进行目标检测,生成目标检测框,基于簇划分的特征提取可以自适应调整每个体素参与注意力计算的范围,并且每个簇可以主要由同一个目标的体素组成,从而使得模型关注于目标级别特征的提取,改善检测性能。
在一些实施例中,上述依据各前景体素相对其目标中心点的偏移,对前景体素进行聚类,得到聚类后的目标簇,可以包括:
对于任一前景体素,依据该前景体素相对目标中心点的偏移,将该前景体素移动到更靠近其目标中心点的位置;
依据移动后的前景体素之间的距离,将距离小于预设距离阈值的两个移动后的前景体素加入同一连通域;
将属于同一连通域的前景体素划分至同一目标簇。
示例性的,在确定了各前景体素相对其目标中心点的偏移的情况下,对于任一前景体素,可以依据该前景体素相对其目标中心点的偏移,将该前景体素移动到更靠近其目标中心点的位置。
示例性的,该偏移可以为1个三维向量,依据该偏移将前景体素移动到更靠近其目标中心点的位置可以通过在该前景体素的三维坐标的基础上加上该偏移来实现。
例如,假设移动前的前景体素表示为v′,前景体素相对其目标中心的偏移为Δ,则移动后的前景体素可以表示为:
v′Δ=Δ+v′
示例性的,可以计算所有移动后的前景体素两两之间的距离形成距离矩阵,在两个移动后的前景体素之间的距离小于预设距离阈值的情况下,确定该两个前景体素是连通的。然后寻找距离矩阵中的所有连通域,属于同一个连通域的前景体素被划分为同一个目标簇。
需要说明的是,本申请实施例中,对前景体素进行聚类并不限于上述方式,例如,还可以将移动后的前景体素转换到BEV图(进行坐标投影),并依据BEV图中各grid(像素,或称为网格)中前景体素的数量,确定目标中心点,在确定了目标中心点的情况下,对于任一移动后的前景体素,依据该移动后的前景体素与各目标中心点之间的距离,将该移动后的前景体素与最近的目标中心点划分至同一目标簇。
示例性的,示例性的,可以依据各grid中前景体素的数量,将局部区域内前景体素数量最多的grid确定为目标中心点。
例如,可以遍历各grid,对于任一grid(可以称为目标grid),确定以该目标grid为中心的3*3区域内各gird中前景体素的数量,在该目标grid中前景体素的数量最多的情况下,确定该目标grid为目标中心点;否则,继续遍历grid。
在一些实施例中,上述利用自注意力机制对该目标簇内各前景体素进行特征提取,可以包括:
以该目标簇内各前景体素的体素特征为Query、Key特征以及Value特征,利用多头自注意力机制,对该目标簇内各前景体素进行特征提取。
示例性的,可以利用多头注意力机制在目标簇内进行目标级别特征提取。
对于任一目标簇,可以以该目标簇内各前景体素的体素特征为Query(查询向量)、Key(键)特征以及Value(值)特征,利用多头自注意力机制,对该目标簇内各前景体素进行特征提取。
例如,可以以该目标簇内各前景体素的体素特征为Query、Key特征以及Value特征,利用两层的多头自注意力,对该目标簇内各前景体素进行特征提取。
其中,由于每一个簇内的体素通常来自同一目标,簇可以根据目标的大小自适应调整的,注意力的计算范围也是自适应调整的,因此,这种基于簇内的自注意力机制可以关注于目标层面的特征提取,改善目标检测性能。
在一些实施例中,上述依据初始体素特征,对输入点云数据对应的非空体素进行前景和背景的分类,并确定各前景体素相对其目标中心点的偏移,包括:
对输入点云数据对应的非空体素按照空间位置划分为多个不同组;
对于任一组,依据该组内各非空体素的初始体素特征,利用自注意力机制对该组内各非空体素进行特征提取,得到该组内各前景体素的局部级别特征;
依据输入点云数据对应的非空体素的局部级别特征,对输入点云数据对应的非空体素进行前景和背景的分类,并确定各前景体素相对其目标中心点的偏移。
上述利用自注意力机制对该目标簇内各前景体素进行特征提取,得到该目标簇内各前景体素的目标级别特征,可以包括:
依据该目标簇内各前景体素的局部级别特征,利用自注意力机制对该目标簇内各前景体素进行特征提取,得到该目标簇内各前景体素的目标级别特征。
示例性的,为了使提取到的体素特征信息更加丰富,以进一步改善目标检测性能,基于簇划分的特征提取,可以与基于窗口划分的特征提取结合应用。
相应地,在得到了初始体素特征的情况下,可以对输入点云数据对应的非空体素按照空间位置划分为多个不同组。
例如,可以将输入点云数据对应的体素投影到BEV(Bird Eye View,鸟瞰图)视角下,得到BEV图,并将BEV图划分为多个不重叠的窗口,将同一窗口内的非空体素视为同一组。
示例性的,对于任一组,可以依据该组内各非空体素的初始体素特征,利用自注意力机制对该组内各非空体素进行特征提取,得到该组内各非空体素的体素特征(可以称为局部级别特征)。在按照上述方式得到了输入点云数据对应的非空体素的局部级别特征的情况下,可以依据输入点云数据对应的非空体素的局部级别特征,对输入点云数据对应的非空体素进行前景和背景的分类,并确定各前景体素相对其目标中心点的偏移。
进而,对于任一目标簇,可以依据该目标簇内各前景体素的局部级别特征,利用自注意力机制对该目标簇内各前景体素进行进一步地特征提取,得到该目标簇内各前景体素的目标级别特征。
在一个示例中,为了使模型更好地学习局部级别特征信息和目标级别特征信息,依据初始体素特征,对所述输入点云数据对应的前景体素执行间隔进行的多次局部级别特征提取(即基于窗口划分的特征提取)和目标级别特征提取(即基于簇划分的特征提取)。
例如,以2次局部级别特征提取和目标级别特征提取为例,对于初始体素特征,可以先进行1次局部级别特征提取,并依据提取到的局部级别特征进一步进行1次目标级别特征提取,然后,再依据提取到的目标级别特征进一步进行1次局部级别特征,并依据提取到的局部级别特征进一步进行1次目标级别特征提取。
需要说明的是,在本申请实施例中,上述间隔进行的多次局部级别特征提取和目标级别特征提取过程中,第一次局部级别特征提取的输入特征为初始体素特征,之后的特征提取为上一次特征提取(局部级别特征提取或目标级别特征提取)输出的体素特征。
在需要进行多次目标级别特征提取的(即基于簇划分的特征提取)情况下,对于每一次基于簇划分的特征提取,均可以先依据当前的体素特征重新对前景体素进行聚类,以得到更新后的目标簇,并基于更新后的目标簇进行特征提取。
其中,重新对前景体素进行聚类可以包括依据当前的体素特征重新对各前景体素进行中心点偏移预测,并依据更新后的中心点偏移重新对前景体素进行聚类。
例如,假设局部级别特征提取(即基于窗口划分的特征提取)与基于簇划分的特征提取间隔执行,对于一次基于簇划分的特征提取,可以先依据上一次基于窗口划分的特征提取得到的局部级别特征,对前景体素进行重新聚类,得到更新后的目标簇,并基于更新后的目标簇进行特征提取。
在一些实施例中,上述依据各前景体素的目标级别特征,进行目标检测,生成目标检测框,可以包括:
依据各前景体素的目标级别特征,对输入点云数据对应的前景体素重新进行聚类,得到更新后的目标簇;
对于任一更新后的目标簇,依据该更新后的目标簇内各前景体素的目标级别特征确定该更新后的目标簇的代表特征;
依据各更新后的目标簇的代表特征,利用自注意力机制对各更新后的目标簇的代表特征进行特征增强,得到各更新后的目标簇的增强特征;
依据各更新后的目标簇的增强特征,进行目标检测,生成目标检测框。
示例性的,为了增强提取得到的体素特征中的全局信息,以进一步改善目标检测性能,还可以对各个目标簇内各前景体素的目标级别特征进行聚合,并通过目标簇之间的交互对聚合特征进行增强。
示例性的,在按照上述实施例中描述的方式得到了各前景体素的目标级别特征的情况下,还可以依据各前景体素的目标级别特征,对输入点云数据对应的前景体素重新进行聚类,得到更新后的目标簇。
需要说明的是,在本申请实施例中,对于结合基于簇划分的特征提取和基于窗口划分的特征提取的场景,上述各前景体素的目标级别特征指的是在执行了一次或多次间隔进行的局部级别特征提取和目标级别特征提取的情况下得到的体素特征。
示例性的,依据各前景体素的目标级别特征对输入点云数据对应的前景体素重新进行聚类的具体实现方式可以参见上述实施例中前景体素聚类的相关描述,本申请实施例在此不做赘述。
对于任一更新后的目标簇,可以依据该更新后的目标簇内各前景体素的目标级别特征确定该更新后的目标簇的代表特征(即聚合特征)。
在一个示例中,对于任一更新后的目标簇,可以对该更新后的目标簇内各前景体素的目标级别特征进行最大池化,得到该更新后的目标簇的代表特征。
可以依据各更新后的目标簇的代表特征,利用自注意力机制对各更新后的目标簇的代表特征进行特征增强,得到各更新后的目标簇的增强特征;进而,可以依据各更新后的目标簇的增强特征,进行目标检测,生成目标检测框。
为了使本领域技术人员更好地理解本申请实施例提供的技术方案,下面结合具体实例对本申请实施例提供的技术方案进行说明。
该实施例提供一种基于注意力的点云特征提取和目标检测方案,该方案在窗口划分的基础上,还设计了一种基于簇的体素划分方式,通过预测每个前景体素的中心点偏移将其划分为不同的簇,使得同一个簇内的体素主要属于同一个目标。基于这种划分方式,可以自适应的调整每个体素参与注意力计算的范围,增强体素特征的目标层面的信息,改善检测性能。
该实施例提供的基于注意力的点云特征提取和目标检测方案的整体框图可以如图2所示,其主要包括:输入点云数据预处理模块、基于注意力机制的特征提取模块(简称特征提取模块)、特征聚合模块以及点云目标检测头。其中,基于注意力机制的特征提取模块可以包括:基于窗口划分的特征提取模块和基于簇划分的特征提取模块。
下面对各模块进行详细介绍。
1、输入点云数据预处理模块
对于输入点云信号p∈Rt×3。其中,t为点云数目,3为点云的x,y,z坐标位置信息(3维坐标)。
对点云进行体素化,得到体素信号v∈Rm×3,其中m为所用非空体素的数目,3表示体素的坐标位置信息。
在每个体素内利用PointNet进行特征提取,得到初始体素特征vf∈Rm×c。其中,c为特征通道数。
可选的,c可以设置为128
由于传统的点云特征提取网络所提取的体素特征感受野有限,并且缺乏目标级别的信息,影响了特征的表达能力不利于点云的目标检测,因此,可以引入Transformer中的自注意力机制来获取更大感受野的上下信息以改善点云目标检测精度。
2、特征提取模块
示例性的,特征提取模块可以包括多个基于窗口划分的特征提取模块和多个基于簇划分的特征提取模块间隔级联。
2.1、基于窗口划分的特征提取模块
基于获取到的初始体素特征vf∈Rm×c,对非空的体素按照空间位置划分为不同的组。
一种组划分实现方式如下:将体素v∈Rm×3投影到BEV视角下,BEV图长度和宽度分别为H和W。
将BEV图划分为多个不重叠的窗口W={w1,w2...wi..wn},其中,n为划分窗口的数目。
将同一个窗口内的非空体素视为同一组,即其中,ni表示第i个窗口内体素的数目。
可以利用两层的多头自注意力机制对各窗口(或称为各组)进行体素特征提取。
例如,某个窗口内的多头自注意力机制的表达式如下式所示:
其中,Q(即Query),K(即Key特征),V(即Value特征)分别为多头自注意力机制的三种输入特征向量,在该实施例中,将得到的初始体素特征vf∈Rm×c分别设置为Q,K,V;D为归一化参数,该实施例中可以将D设置为体素特征的通道数,如128;i表示第i个窗口,Oi表示第i个窗口经过自注意力机制后输出的体素特征。
通过上述处理,体素特征可以获取在一个窗口内的上下文信息,提升体素特征的表达能力。
但是,考虑到对于目标检测任务,不光需要长距离(窗口内)的上下文信息,同样也需要目标层面的上下文信息以获得更好的检测性能;此外,对于不同尺度的目标,这些窗口的大小也是不能自适应调整的。基于此,本申请实施例提供的方案可以进一步引入基于簇划分的特征提取模块。
2.2、基于簇划分的特征提取模块
对于上述操作所得到的非空体素特征,将其输入到一个多层感知机,例如,由两层的全连接层构成,每一层的通道数为512的多层感知机,分别进行前景体素和背景体素的分类,以及预测前景体素的中心点偏移Δ∈R(m×3)。
其中,前景体素表示在目标检测框内的体素,中心点偏移表示前景体素相对于检测框中心点的偏移。
对于所有被划分为前景的体素(即前景体素)v′,将这些体素的位置加上所预测的中心点偏移Δ,使得每个移动后的前景体素更靠近各自的目标中心,其可以表示为:
v′Δ=Δ+v′
根据距离将这些移动后的前景体素划分为不同的目标簇。
一种可选的实施方式:基于三维空间内连通域的方法。
具体实现方式为:计算所有移动后的前景体素两两之间的距离形成距离矩阵M∈Rm′×m′(m′表示前景体素的数量),在两个移动后的前景体素之间的距离小于预设距离阈值的情况下,确定该两个前景体素是连通的。然后寻找距离矩阵中的所有连通域,属于同一个连通域的前景体素被划分为同一个目标簇,以这种方式便可以得到多个目标簇C={c1,c2...cj...ck},其中k表示目标簇的数目,表示第j个目标簇,nj为第j个目标簇内体素的数目。得到基于簇划分的不同体素后,可以利用两层的多头自注意力在各个簇内进行特征的进一步提取。
其中,将所有被按簇划分的前景体素特征设置为Q,K,V;D归一化参数,Oj表示第j个目标簇经过自注意力机制后输出的体素特征。
由于每一个簇内的体素通常都来自于同一个目标,簇是根据目标的大小自适应调整的,注意力的计算范围也是自适应调整的,因此,这种基于簇内的自注意力机制可以关注于目标层面的特征提取,改善目标检测的精度。
3、特征聚合模块
基于特征提取模块处理后的体素特征v′f,再次进行一次分簇的操作,具体操作同上述分簇操作一致,并且每个簇负责一个目标的检测。
基于这些分簇的体素特征,设计一个特征聚合模块,聚合并增强各个簇的特征。
一种可选的实现方式:基于上述的分簇结果,将同一个簇内的体素特征进行最大池化(max-pool)得到并将/>作为第j个簇的代表特征,后续的检测结果也是基于这些簇的代表特征得到。
由于在特征提取模块中的注意力运算都是在一个窗口或是在一个簇内的,因此缺乏全局的上下文信息。
因而,在得到这些簇的代表特征的情况下,再次利用一个多头自注意力机制,让这些簇的代表特征之间进行交互,以获得全局的上下文信息去改善目标的定位精度。
示例性的,可以以各簇的代表特征作为Q,K,V,利用多头自注意力机制,对各簇的代表特征进行增强,得到各簇增强后的特征(即增强特征)。
4、点云目标检测头
示例性的,可以基于所得的簇特征(增强特征)利用两层全连接层生成检测框的位置信息(△x,Δy,Δz),长宽高(log(l),log(w),log(h)),朝向信息(sin(α),cos(α)),以及,语义类别。
其中,(△x,Δy,Δz)为检测框的中心点相对簇中心点坐标的偏移值。α为朝向角信息。簇中心的坐标值为每个簇内移动后的前景体素位置均值所得到的。
可见,基于簇划分的特征提取模块可以自适应调整每个体素参与注意力计算的范围,并且每个簇可以主要由同一个目标的体素组成,从而使得模型关注于目标级别特征的提取,改善目标检测性能。
此外,特征聚合模块可以聚合生成簇的代表特征,并增强了簇代表特征中全局信息,可以进一步改善目标检测性能。
以上对本申请提供的方法进行了描述。下面对本申请提供的装置进行描述:
请参见图3,为本申请实施例提供的一种目标检测装置的结构示意图,如图3所示,该目标检测装置可以包括:
初始特征提取单元310,用于对输入点云数据进行体素化,并进行体素化特征初步提取,得到输入点云数据的初始体素特征;
目标级别特征提取单元320,用于依据所述初始体素特征,对所述输入点云数据对应的非空体素进行前景和背景的分类,并确定各前景体素相对其目标中心点的偏移;依据各前景体素相对其目标中心点的偏移,对前景体素进行聚类,得到聚类后的目标簇;对于任一目标簇,利用自注意力机制对该目标簇内各前景体素进行特征提取,得到该目标簇内各前景体素的目标级别特征;
目标检测单元330,用于依据各前景体素的目标级别特征,进行目标检测,生成目标检测框。
在一些实施例中,所述目标级别特征提取单元320依据各前景体素相对其目标中心点的偏移,对前景体素进行聚类,得到聚类后的目标簇,包括:
对于任一前景体素,依据该前景体素相对目标中心点的偏移,将该前景体素移动到更靠近其目标中心点的位置;
依据移动后的前景体素之间的距离,将距离小于预设距离阈值的两个移动后的前景体素加入同一连通域;
将属于同一连通域的前景体素划分至同一目标簇。
在一些实施例中,所述目标级别特征提取单元320利用自注意力机制对该目标簇内各前景体素进行特征提取,包括:
以该目标簇内各前景体素的体素特征为查询向量Query、键Key特征以及值Value特征,利用多头自注意力机制,对该目标簇内各前景体素进行特征提取。
在一些实施例中,如图4所示,所述装置还包括:
局部级别特征提取单元340,用于对所述输入点云数据对应的非空体素按照空间位置划分为多个不同组;对于任一组,依据该组内各非空体素的初始体素特征,利用自注意力机制对该组内各非空体素进行特征提取,得到该组内各非空体素的局部级别特征;
所述目标级别特征提取单元320依据所述初始体素特征,对所述输入点云数据对应的非空体素进行前景和背景的分类,并确定各前景体素相对其目标中心点的偏移,包括:
依据所述输入点云数据对应的非空体素的局部级别特征,对所述输入点云数据对应的非空体素进行前景和背景的分类,并确定各前景体素相对其目标中心点的偏移;
所述目标级别特征提取单元320利用自注意力机制对该目标簇内各前景体素进行特征提取,得到该目标簇内各前景体素的目标级别特征,包括:
依据该目标簇内各前景体素的局部级别特征,利用自注意力机制对该目标簇内各前景体素进行特征提取,得到该目标簇内各前景体素的目标级别特征。
在一些实施例中,依据所述初始体素特征,对所述输入点云数据对应的前景体素执行间隔进行的多次局部级别特征提取和目标级别特征提取。
在一些实施例中,如图5所示,所述装置还包括:
特征聚合增强单元350,用于依据各前景体素的目标级别特征,对所述输入点云数据对应的前景体素重新进行聚类,得到更新后的目标簇;对于任一更新后的目标簇,依据该更新后的目标簇内各前景体素的目标级别特征确定该更新后的目标簇的代表特征;依据各更新后的目标簇的代表特征,利用自注意力机制对各更新后的目标簇的代表特征进行特征增强,得到各更新后的目标簇的增强特征;
所述目标检测单元330依据各前景体素的目标级别特征,进行目标检测,生成目标检测框,包括:
依据各更新后的目标簇的增强特征,进行目标检测,生成目标检测框。
在一些实施例中,所述特征聚合增强单元依据该更新后的目标簇内各前景体素的目标级别特征确定该更新后的目标簇的代表特征,包括:
对该更新后的目标簇内各前景体素的目标级别特征进行最大池化,得到该更新后的目标簇的代表特征。
本申请实施例提供一种电子设备,包括处理器和存储器,其中,存储器存储有能够被所述处理器执行的机器可执行指令,处理器用于执行机器可执行指令,以实现上文描述的目标检测方法。
请参见图6,为本申请实施例提供的一种电子设备的硬件结构示意图。该电子设备可包括处理器601、存储有机器可执行指令的存储器602。处理器601与存储器602可经由系统总线603通信。并且,通过读取并执行存储器602中与目标检测逻辑对应的机器可执行指令,处理器601可执行上文描述的目标检测方法。
本文中提到的存储器602可以是任何电子、磁性、光学或其它物理存储装置,可以包含或存储信息,如可执行指令、数据,等等。例如,机器可读存储介质可以是:RAM(RadomAccess Memory,随机存取存储器)、易失存储器、非易失性存储器、闪存、存储驱动器(如硬盘驱动器)、固态硬盘、任何类型的存储盘(如光盘、dvd等),或者类似的存储介质,或者它们的组合。
在一些实施例中,还提供了一种机器可读存储介质,如图6中的存储器602,该机器可读存储介质内存储有机器可执行指令,所述机器可执行指令被处理器执行时实现上文描述的目标检测方法。例如,所述存储介质可以是ROM、RAM、CD-ROM、磁带、软盘和光数据存储设备等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅为本申请的较佳实施例而已,并不用以限制本申请,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请保护的范围之内。
Claims (11)
1.一种目标检测方法,其特征在于,包括:
对输入点云数据进行体素化,并进行体素化特征初步提取,得到输入点云数据的初始体素特征;
依据所述初始体素特征,对所述输入点云数据对应的非空体素进行前景和背景的分类,并确定各前景体素相对其目标中心点的偏移;
依据各前景体素相对其目标中心点的偏移,对前景体素进行聚类,得到聚类后的目标簇;
对于任一目标簇,利用自注意力机制对该目标簇内各前景体素进行特征提取,得到该目标簇内各前景体素的目标级别特征;
依据各前景体素的目标级别特征,进行目标检测,生成目标检测框。
2.根据权利要求1所述的方法,其特征在于,所述依据各前景体素相对其目标中心点的偏移,对前景体素进行聚类,得到聚类后的目标簇,包括:
对于任一前景体素,依据该前景体素相对目标中心点的偏移,将该前景体素移动到更靠近其目标中心点的位置;
依据移动后的前景体素之间的距离,将距离小于预设距离阈值的两个移动后的前景体素加入同一连通域;
将属于同一连通域的前景体素划分至同一目标簇。
3.根据权利要求1所述的方法,其特征在于,所述利用自注意力机制对该目标簇内各前景体素进行特征提取,包括:
以该目标簇内各前景体素的体素特征为查询向量Query、键Key特征以及值Value特征,利用多头自注意力机制,对该目标簇内各前景体素进行特征提取。
4.根据权利要求1所述的方法,其特征在于,所述依据所述初始体素特征,对所述输入点云数据对应的非空体素进行前景和背景的分类,并确定各前景体素相对其目标中心点的偏移,包括:
对所述输入点云数据对应的非空体素按照空间位置划分为多个不同组;
对于任一组,依据该组内各非空体素的初始体素特征,利用自注意力机制对该组内各非空体素进行特征提取,得到该组内各非空体素的局部级别特征;
依据所述输入点云数据对应的非空体素的局部级别特征,对所述输入点云数据对应的非空体素进行前景和背景的分类,并确定各前景体素相对其目标中心点的偏移;
所述利用自注意力机制对该目标簇内各前景体素进行特征提取,得到该目标簇内各前景体素的目标级别特征,包括:
依据该目标簇内各前景体素的局部级别特征,利用自注意力机制对该目标簇内各前景体素进行特征提取,得到该目标簇内各前景体素的目标级别特征。
5.根据权利要求4所述的方法,其特征在于,依据所述初始体素特征,对所述输入点云数据对应的前景体素执行间隔进行的多次局部级别特征提取和目标级别特征提取。
6.根据权利要求1所述的方法,其特征在于,所述依据各前景体素的目标级别特征,进行目标检测,生成目标检测框,包括:
依据各前景体素的目标级别特征,对所述输入点云数据对应的前景体素重新进行聚类,得到更新后的目标簇;
对于任一更新后的目标簇,依据该更新后的目标簇内各前景体素的目标级别特征确定该更新后的目标簇的代表特征;
依据各更新后的目标簇的代表特征,利用自注意力机制对各更新后的目标簇的代表特征进行特征增强,得到各更新后的目标簇的增强特征;
依据各更新后的目标簇的增强特征,进行目标检测,生成目标检测框。
7.根据权利要求6所述的方法,其特征在于,所述依据该更新后的目标簇内各前景体素的目标级别特征确定该更新后的目标簇的代表特征,包括:
对该更新后的目标簇内各前景体素的目标级别特征进行最大池化,得到该更新后的目标簇的代表特征。
8.一种目标检测装置,其特征在于,包括:
初始特征提取单元,用于对输入点云数据进行体素化,并进行体素化特征初步提取,得到输入点云数据的初始体素特征;
目标级别特征提取单元,用于依据所述初始体素特征,对所述输入点云数据对应的非空体素进行前景和背景的分类,并确定各前景体素相对其目标中心点的偏移;依据各前景体素相对其目标中心点的偏移,对前景体素进行聚类,得到聚类后的目标簇;对于任一目标簇,利用自注意力机制对该目标簇内各前景体素进行特征提取,得到该目标簇内各前景体素的目标级别特征;
目标检测单元,用于依据各前景体素的目标级别特征,进行目标检测,生成目标检测框。
9.根据权利要求8所述的装置,其特征在于,所述目标级别特征提取单元依据各前景体素相对其目标中心点的偏移,对前景体素进行聚类,得到聚类后的目标簇,包括:
对于任一前景体素,依据该前景体素相对目标中心点的偏移,将该前景体素移动到更靠近其目标中心点的位置;
依据移动后的前景体素之间的距离,将距离小于预设距离阈值的两个移动后的前景体素加入同一连通域;
将属于同一连通域的前景体素划分至同一目标簇;
和/或,
所述目标级别特征提取单元利用自注意力机制对该目标簇内各前景体素进行特征提取,包括:
以该目标簇内各前景体素的体素特征为查询向量Query、键Key特征以及值Value特征,利用多头自注意力机制,对该目标簇内各前景体素进行特征提取;
和/或,
所述装置还包括:
局部级别特征提取单元,用于对所述输入点云数据对应的非空体素按照空间位置划分为多个不同组;对于任一组,依据该组内各非空体素的初始体素特征,利用自注意力机制对该组内各非空体素进行特征提取,得到该组内各非空体素的局部级别特征;
所述目标级别特征提取单元依据所述初始体素特征,对所述输入点云数据对应的非空体素进行前景和背景的分类,并确定各前景体素相对其目标中心点的偏移,包括:
依据所述输入点云数据对应的非空体素的局部级别特征,对所述输入点云数据对应的非空体素进行前景和背景的分类,并确定各前景体素相对其目标中心点的偏移;
所述目标级别特征提取单元利用自注意力机制对该目标簇内各前景体素进行特征提取,得到该目标簇内各前景体素的目标级别特征,包括:
依据该目标簇内各前景体素的局部级别特征,利用自注意力机制对该目标簇内各前景体素进行特征提取,得到该目标簇内各前景体素的目标级别特征;
其中,依据所述初始体素特征,对所述输入点云数据对应的前景体素执行间隔进行的多次局部级别特征提取和目标级别特征提取;
和/或,
所述装置还包括:
特征聚合增强单元,用于依据各前景体素的目标级别特征,对所述输入点云数据对应的前景体素重新进行聚类,得到更新后的目标簇;对于任一更新后的目标簇,依据该更新后的目标簇内各前景体素的目标级别特征确定该更新后的目标簇的代表特征;依据各更新后的目标簇的代表特征,利用自注意力机制对各更新后的目标簇的代表特征进行特征增强,得到各更新后的目标簇的增强特征;
所述目标检测单元依据各前景体素的目标级别特征,进行目标检测,生成目标检测框,包括:
依据各更新后的目标簇的增强特征,进行目标检测,生成目标检测框;
其中,所述特征聚合增强单元依据该更新后的目标簇内各前景体素的目标级别特征确定该更新后的目标簇的代表特征,包括:
对该更新后的目标簇内各前景体素的目标级别特征进行最大池化,得到该更新后的目标簇的代表特征。
10.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的机器可执行指令,所述处理器用于执行机器可执行指令,以实现如权利要求1-7任一项所述的方法。
11.一种机器可读存储介质,其特征在于,所述机器可读存储介质内存储有机器可执行指令,所述机器可执行指令被处理器执行时实现如权利要求1-7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310581735.7A CN116664854A (zh) | 2023-05-22 | 2023-05-22 | 目标检测方法、装置、电子设备及机器可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310581735.7A CN116664854A (zh) | 2023-05-22 | 2023-05-22 | 目标检测方法、装置、电子设备及机器可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116664854A true CN116664854A (zh) | 2023-08-29 |
Family
ID=87721677
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310581735.7A Pending CN116664854A (zh) | 2023-05-22 | 2023-05-22 | 目标检测方法、装置、电子设备及机器可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116664854A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117874900A (zh) * | 2024-03-12 | 2024-04-12 | 中钜(陕西)工程咨询管理有限公司 | 一种基于bim技术的房屋建筑工程监理方法 |
-
2023
- 2023-05-22 CN CN202310581735.7A patent/CN116664854A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117874900A (zh) * | 2024-03-12 | 2024-04-12 | 中钜(陕西)工程咨询管理有限公司 | 一种基于bim技术的房屋建筑工程监理方法 |
CN117874900B (zh) * | 2024-03-12 | 2024-05-24 | 中钜(陕西)工程咨询管理有限公司 | 一种基于bim技术的房屋建筑工程监理方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110472627B (zh) | 一种端到端的sar图像识别方法、装置及存储介质 | |
Vu et al. | Softgroup for 3d instance segmentation on point clouds | |
WO2020114378A1 (zh) | 视频水印的识别方法、装置、设备及存储介质 | |
WO2018010434A1 (zh) | 一种图像分类方法及装置 | |
CN107784288B (zh) | 一种基于深度神经网络的迭代定位式人脸检测方法 | |
CN109919241B (zh) | 基于概率模型和深度学习的高光谱未知类别目标检测方法 | |
CN111709313B (zh) | 基于局部和通道组合特征的行人重识别方法 | |
US8687898B2 (en) | System and method for object recognition based on three-dimensional adaptive feature detectors | |
CN116664854A (zh) | 目标检测方法、装置、电子设备及机器可读存储介质 | |
CN112613450A (zh) | 一种增强在困难样本上表现的3d目标检测方法 | |
CN113484875A (zh) | 一种基于混合高斯排序的激光雷达点云目标分级识别方法 | |
Du et al. | SPOT: Selective point cloud voting for better proposal in point cloud object detection | |
Wiggers et al. | Document image retrieval using deep features | |
CN111860679A (zh) | 一种基于YOLO v3改进算法的车辆检测方法 | |
CN115170859A (zh) | 一种基于空间几何感知卷积神经网络的点云形状分析方法 | |
Lee et al. | Reinforced adaboost learning for object detection with local pattern representations | |
CN111860359B (zh) | 一种基于改进随机森林算法的点云分类方法 | |
CN113281718A (zh) | 一种基于激光雷达场景流估计的3d多目标跟踪系统及方法 | |
CN116109649A (zh) | 一种基于语义错误修正的3d点云实例分割方法 | |
Yayla et al. | A new classification approach with deep mask r-cnn for synthetic aperture radar image segmentation | |
Wang et al. | Sonar objective detection based on dilated separable densely connected CNNs and quantum-behaved PSO algorithm | |
Prasad et al. | Improved Entropic Threshold based on GLSC Histogram with Varying Similarity Measure | |
Borhani et al. | Hyperspectral image classification based on non-uniform spatial-spectral kernels | |
Hu et al. | Superpixel generation for SAR images based on DBSCAN clustering and probabilistic patch-based similarity | |
Rujan et al. | A Novel Approach for Hyperspectral Image Classification using Bat Algorithm to Optimize a CNN Classifier |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |