CN114494609B - 一种3d目标检测模型的构建方法、装置和电子设备 - Google Patents

一种3d目标检测模型的构建方法、装置和电子设备 Download PDF

Info

Publication number
CN114494609B
CN114494609B CN202210340988.0A CN202210340988A CN114494609B CN 114494609 B CN114494609 B CN 114494609B CN 202210340988 A CN202210340988 A CN 202210340988A CN 114494609 B CN114494609 B CN 114494609B
Authority
CN
China
Prior art keywords
point cloud
scene
point
key
key points
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210340988.0A
Other languages
English (en)
Other versions
CN114494609A (zh
Inventor
张天柱
张哲�
邓嘉诚
王楚鑫
张勇东
吴枫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN202210340988.0A priority Critical patent/CN114494609B/zh
Publication of CN114494609A publication Critical patent/CN114494609A/zh
Application granted granted Critical
Publication of CN114494609B publication Critical patent/CN114494609B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4038Image mosaicing, e.g. composing plane images from plane sub-images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Length Measuring Devices By Optical Means (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种3D目标检测模型的构建方法、装置和电子设备,该方法和装置具体为对输入的点云场景进行处理,得到点云场景的多个点云特征;对多个点云特征进行采样处理,得到点云场景的多个关键点;基于多个关键点进行模型构建,得到3D目标检测模型。本方案根据具体点云场景中特定的信息自适应地进行关键点的采样,从而实现对前景物体更完整的覆盖和更准确且鲁棒的定位和识别。

Description

一种3D目标检测模型的构建方法、装置和电子设备
技术领域
本申请涉及计算机视觉技术领域,更具体地说,涉及一种3D目标检测模型的构建方法、装置和电子设备。
背景技术
3D目标检测用于在3D场景中进行定位和目标物体的识别,是3D场景感知的必要技术,同时在机器人抓取、增强现实和自动驾驶等领域有着广泛的实际应用。
3D目标检测技术根据输入数据的不同,分为单目3D目标检测方法和点云3D目标检测方法。单目3D目标检测方法利用有3D建议框标注的单目图像数据来训练模型,然后进行3D场景中物体的定位和识别。然而在现实场景中物体布局复杂、光线变化大,基于单目图像进行3D目标检测很难稳定地预测出物体的准确位置,这限制了单目3D目标检测的拓展性和实用性。点云3D目标检测方法利用点云数据实现3D目标检测,相比于单目图像,点云数据具有稀疏、无序、不规则的特点,它提供了精确的几何信息,不受光线变化的影响。
目前点云3D目标检测方法可以归为两类,分别为基于手工体素化的方法和利用点云数据的方法。点云3D目标检测方法目的是定位和识别前景物体,然而由于没有动态地适应不同点云场景和缺乏对物体语义信息的考虑,这些方法在关键点采样过程中很容易引入大量对前景物体检测没有意义的背景点或者只能关注到部分物体,从而对前景物体的完整定位和准确识别造成影响。
发明内容
有鉴于此,本申请提供一种3D目标检测模型的构建方法、装置和电子设备,用于构建3D目标检测模型,以实现对前景物体更完整的覆盖和更准确且鲁棒的定位和识别。
为了实现上述目的,现提出的方案如下:
一种3D目标检测模型的构建方法,应用于电子设备,所述构建方法包括步骤:
对输入的点云场景进行处理,得到所述点云场景的多个点云特征;
对所述多个点云特征进行采样处理,得到所述点云场景的多个关键点;
基于所述多个关键点进行模型构建,得到3D目标检测模型。
可选的,所述对输入的点云场景进行处理,得到所述点云场景的多个点云特征,包括步骤:
捕获所述点云场景的远距离语义信息;
捕获所述点云场景的局部结构信息;
将所述远距离语义信息和所述局部结构信息沿通道维度进行拼接处理,得到所述多个点云特征。
可选的,所述3D目标检测模型的损失函数包括建议框的第一约束损失函数、点云前背景点的第二约束损失函数和每个所述关键点的初始预测框的第三约束损失函数。
一种3D目标检测模型的构建装置,应用于电子设备,所述构建装置包括:
Transformer编码器模块,被配置为对输入的点云场景进行处理,得到所述点云场景的多个点云特征;
关键点动态采样模块,被配置为对所述多个点云特征进行采样处理,得到所述点云场景的多个关键点;
动态Transformer解码器模块,被配置为基于所述多个关键点进行模型构建,得到3D目标检测模型。
可选的,所述Transformer编码器模块包括:
第一捕获单元,被配置为捕获所述点云场景的远距离语义信息;
第二捕获单元,被配置为捕获所述点云场景的局部结构信息;
拼接处理单元,被配置为将所述远距离语义信息和所述局部结构信息沿通道维度进行拼接处理,得到所述多个点云特征。
可选的,所述3D目标检测模型的损失函数包括建议框的第一约束损失函数、点云前背景点的第二约束损失函数和每个所述关键点的初始预测框的第三约束损失函数。
一种电子设备,其特征在于,设置有如上所述的3D目标检测模型的构建装置。
一种电子设备,包括至少一个处理器和与所述处理器连接的存储器,其中:
所述存储器用于存储计算机程序或指令;
所述处理器用于执行所述计算机程序或指令,以使所述电子设备实现如上所述的3D目标检测方法。
从上述的技术方案可以看出,本申请公开了一种3D目标检测模型的构建方法、装置和电子设备,该方法和装置具体为对输入的点云场景进行处理,得到点云场景的多个点云特征;对多个点云特征进行采样处理,得到点云场景的多个关键点;基于多个关键点进行模型构建,得到3D目标检测模型。本方案根据具体点云场景中特定的信息自适应地进行关键点的采样,从而实现对前景物体更完整的覆盖和更准确且鲁棒的定位和识别。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例的一种3D目标检测模型的构建方法的流程图;
图2为本身亲实施例的对点云场景的处理的流程图;
图3为本申请实施例的一种3D目标检测模型的构建装置的框图;
图4为本申请实施例的一种3D目标检测模型的构建装置的框图;
图5为本申请实施例的一种电子设备的框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
实施例一
图1为本申请实施例的一种3D目标检测模型的构建方法的流程图。
如图1所示,本实施例提供的构建方法应用于电子设备,用于基于电子设备构建能够检测3D物体的3D目标检测模型,该电子设备可以理解为具有数据计算和信息处理能力的计算机或服务器,该构建方法具体包括如下步骤:
S1、对输入的点云场景进行处理,得到点云场景的多个点云特征。
具体来说,对于输入的点云场景,通过PointNet++网络下采样点云到2048个点并提取特征。 PointNet++网络是点云场景3D目标检测任务中常用的点云下采样方法,它的主要目的是减少网络需要处理的点云数量,提高网络的推理速度。此外,它也会保持点云的大致结构,提取出较为粗糙的点云局部结构特征。
本申请中具体采用如下方案实现点云场景的处理,如图2所示。
S11、捕获点云场景的远距离语义信息。
具体实施时,本申请的方案使用多头自注意力机制,使得每个点都能捕获场景远距离语义信息:
Figure 100002_DEST_PATH_IMAGE001
其中,F是多头自注意力机制的输入特征,
Figure 646904DEST_PATH_IMAGE002
分别是查询、键和值的变换矩阵,C是输入特征通道维度,Softmax是神经网络输出层的激励函数,同时我们将多头自注意力机制的输出记为
Figure 100002_DEST_PATH_IMAGE003
S12、捕获点云场景的局部结构信息。
在具体实施时,本申请的技术方案使用点云核心点卷积:
Figure 873617DEST_PATH_IMAGE004
其中,K是设置的核心点个数,
Figure DEST_PATH_IMAGE005
是核心点,
Figure 304729DEST_PATH_IMAGE006
是相关权重矩阵,
Figure DEST_PATH_IMAGE007
表示线性相关函数,
Figure 309594DEST_PATH_IMAGE008
,其中r是手动设置的核半径,f i 是x i 所对应的特征,g是核函数,
Figure DEST_PATH_IMAGE009
表示核心点卷积。
S13、将远距离语义信息和局部结构信息进行拼接。
在得到上述远距离语义信息和备结构特征的基础上,将两者沿特征通道维度直接拼接在一起,从而得到点云场景的点云特征。
S2、对多个点云特征进行采样处理,得到多个关键点。
为了让最终得到的关键点可以均匀覆盖到场景中每一个前景物体,且能够根据不同场景动态地更新原型以关注到前景物体上更具代表性的部位,本申请引入了可学习的关键点采样原型
Figure 91737DEST_PATH_IMAGE012
,并根据具体场景进行自适应的更新:
Figure DEST_PATH_IMAGE013
其中,
Figure 777933DEST_PATH_IMAGE014
是可学习的关键点采样原型,
Figure DEST_PATH_IMAGE015
是输入的点云特征,WQ、WK、WV分别是查询、键和值的变换矩阵,C是输入特征通道维度,Softmax是神经网络输出层的激励函数,
Figure 60622DEST_PATH_IMAGE016
是场景自适应更新后的关键点采样原型。
另外,本申请选用一个关键点采样层,利用这些更新后的原型通过余弦相似性来动态捕获和自己相似的关键点:
Figure DEST_PATH_IMAGE017
其中,
Figure 236389DEST_PATH_IMAGE018
为预测的质量分数,
Figure DEST_PATH_IMAGE019
表示余弦相似度计算函数,Max表示最大值函数,
Figure 240248DEST_PATH_IMAGE016
是采样原型,
Figure 995714DEST_PATH_IMAGE020
是场景点云中的第i个点。我们选取质量分数最高的K个点作为我们的关键点,在我们的方法中K的值设为256。
S3、基于多个关键点进行模型构建,得到3D目标检测模型。
本申请的方案中引入了一个动态的高斯权重图:
Figure DEST_PATH_IMAGE021
其中
Figure 119528DEST_PATH_IMAGE022
是关键点的空间3D坐标,
Figure DEST_PATH_IMAGE023
是聚集强度的超参数,(
Figure 216928DEST_PATH_IMAGE024
Figure DEST_PATH_IMAGE025
Figure 691772DEST_PATH_IMAGE026
)和(
Figure DEST_PATH_IMAGE027
Figure 736082DEST_PATH_IMAGE028
Figure DEST_PATH_IMAGE029
)分别是关键点预测得到的3D建议框中心点的3D坐标和3D建议框的长宽高尺寸。动态的高斯权重图会帮助关键点在交叉注意力机制中更加关注预测区域附近的点云特征,最终动态的交叉注意力机制可被形式化为:
Figure 979982DEST_PATH_IMAGE030
其中,
Figure DEST_PATH_IMAGE031
是关键点的特征,
Figure 979774DEST_PATH_IMAGE015
是点云的特征,
Figure 676335DEST_PATH_IMAGE032
Figure DEST_PATH_IMAGE033
Figure 304762DEST_PATH_IMAGE034
分别是查询、键和值的变换矩阵,C是输入特征通道维度,G是动态的高斯权重图,Softmax是神经网络输出层的激励函数,将关键点特征经过交叉注意力机制的输出值记为O。通过上述具体方案最终得到3D目标检测模型。
本申请中3D目标检测模型的损失函数由三部分组成,分别为:
1)建议框预测的第一约束损失
Figure DEST_PATH_IMAGE035
Figure 419480DEST_PATH_IMAGE036
其中,θ i 为权重参数,
Figure DEST_PATH_IMAGE037
为该模型预测的建议框中心、尺寸、方向和类别,
Figure 45633DEST_PATH_IMAGE038
表示Huber损失函数;
2)点云前背景点的第二约束损失
Figure DEST_PATH_IMAGE039
:为了让网络学习到更多能区分前背景的特征从而帮助网络更高质量地采样前景点,我们为每个点设置了交叉熵损失来约束;
3)每个关键点初始预测框的第三约束损失
Figure 511381DEST_PATH_IMAGE040
:我们对每个关键点的初始预测框也设置了与
Figure DEST_PATH_IMAGE041
类似的损失约束网络更好地动态采样关键点。
最终模型的损失函数定义为:
Figure 943499DEST_PATH_IMAGE042
从上述技术方案可以看出,本申请提供了一种3D目标检测模型的构建方法,该方法应用于电子设备,具体为对输入的点云场景进行处理,得到点云场景的多个点云特征;对多个点云特征进行采样处理,得到点云场景的多个关键点;基于多个关键点进行模型构建,得到3D目标检测模型。本方案根据具体点云场景中特定的信息自适应地进行关键点的采样,从而实现对前景物体更完整的覆盖和更准确且鲁棒的定位和识别。
实施例二
图3为本申请实施例的一种3D目标检测模型的构建装置的框图。
如图3所示,本实施例提供的构建装置应用于电子设备,用于基于电子设备构建能够检测3D物体的3D目标检测模型,该电子设备可以理解为具有数据计算和信息处理能力的计算机或服务器,该构建装置具体包括Transformer编码器10、关键点动态采样模块20和动态Transformer解码器30。
Transformer编码器用于对输入的点云场景进行处理,得到点云场景的多个点云特征。
具体来说,对于输入的点云场景,通过PointNet++网络下采样点云到2048个点并提取特征。 PointNet++网络是点云场景3D目标检测任务中常用的点云下采样方法,它的主要目的是减少网络需要处理的点云数量,提高网络的推理速度。此外,它也会保持点云的大致结构,提取出较为粗糙的点云局部结构特征。该模块包括第一捕获单元11、第二捕获单元12和拼接处理单元13,如图4所示。
第一捕获单元用于捕获点云场景的远距离语义信息。
具体实施时,本申请的方案使用多头自注意力机制,使得每个点都能捕获场景远距离语义信息:
Figure DEST_PATH_IMAGE043
其中,F是多头自注意力机制的输入特征,
Figure 99674DEST_PATH_IMAGE032
Figure 178620DEST_PATH_IMAGE033
Figure 318614DEST_PATH_IMAGE034
分别是查询、键和值的变换矩阵,C是输入特征通道维度,Softmax是神经网络输出层的激励函数,同时我们将多头自注意力机制的输出记为
Figure 288844DEST_PATH_IMAGE003
第二捕获单元用于捕获点云场景的局部结构信息。
在具体实施时,本申请的技术方案使用点云核心点卷积:
Figure 830684DEST_PATH_IMAGE044
其中,K是设置的核心点个数
Figure DEST_PATH_IMAGE045
是核心点,
Figure 632197DEST_PATH_IMAGE046
是相关权重矩阵,
Figure DEST_PATH_IMAGE047
表示线性相关函数,
Figure 993908DEST_PATH_IMAGE048
其中
Figure DEST_PATH_IMAGE049
是手动设置的核半径,fi是xi所对应的特征,g是核函数,
Figure 784141DEST_PATH_IMAGE050
表示核心点卷积。
拼接处理单元用于将远距离语义信息和局部结构信息进行拼接。
在得到上述远距离语义信息和具备结构特征的基础上,将两者沿特征通道维度直接拼接在一起,从而得到点云场景的点云特征。
关键点动态采样模块用于对多个点云特征进行采样处理,得到多个关键点。
为了让最终得到的关键点可以均匀覆盖到场景中每一个前景物体,且能够根据不同场景动态地更新原型以关注到前景物体上更具代表性的部位,本申请引入了可学习的关键点采样原型
Figure DEST_PATH_IMAGE051
,并根据具体场景进行自适应的更新:
Figure 711646DEST_PATH_IMAGE013
其中,
Figure 584924DEST_PATH_IMAGE052
是可学习的关键点采样原型,F是输入的点云特征,
Figure 699510DEST_PATH_IMAGE032
Figure 231117DEST_PATH_IMAGE033
Figure 13128DEST_PATH_IMAGE034
分别是查询、键和值的变换矩阵,
Figure DEST_PATH_IMAGE053
是输入特征通道维度,Softmax是神经网络输出层的激励函数,
Figure 385203DEST_PATH_IMAGE016
是场景自适应更新后的关键点采样原型。
动态Transformer解码器用于基于多个关键点进行模型构建,得到3D目标检测模型。
本申请的方案中引入了一个动态的高斯权重图:
Figure 190348DEST_PATH_IMAGE021
其中
Figure 525646DEST_PATH_IMAGE022
是关键点的空间3D坐标,
Figure 896584DEST_PATH_IMAGE023
是聚集强度的超参数,(
Figure 173982DEST_PATH_IMAGE024
Figure 997582DEST_PATH_IMAGE025
Figure 133640DEST_PATH_IMAGE026
)和(
Figure 359085DEST_PATH_IMAGE027
Figure 745067DEST_PATH_IMAGE028
Figure 321542DEST_PATH_IMAGE029
)分别是关键点预测得到的3D建议框中心点的3D坐标和3D建议框的长宽高尺寸。动态的高斯权重图会帮助关键点在交叉注意力机制中更加关注预测区域附近的点云特征,最终动态的交叉注意力机制可被形式化为:
Figure 247910DEST_PATH_IMAGE030
其中,
Figure 344173DEST_PATH_IMAGE054
是关键点的特征,
Figure DEST_PATH_IMAGE055
是点云的特征,
Figure 494532DEST_PATH_IMAGE056
Figure DEST_PATH_IMAGE057
Figure 27144DEST_PATH_IMAGE058
分别是查询、键和值的变换矩阵,
Figure 507935DEST_PATH_IMAGE053
是输入特征通道维度,
Figure DEST_PATH_IMAGE059
是动态的高斯权重图,Softmax是神经网络输出层的激励函数,将关键点特征经过交叉注意力机制的输出值记为
Figure 239131DEST_PATH_IMAGE060
。通过上述具体方案最终得到3D目标检测模型。
从上述技术方案可以看出,本申请提供了一种3D目标检测模型的构建装置,该装置应用于电子设备,具体用于对输入的点云场景进行处理,得到点云场景的多个点云特征;对多个点云特征进行采样处理,得到点云场景的多个关键点;基于多个关键点进行模型构建,得到3D目标检测模型。本方案根据具体点云场景中特定的信息自适应地进行关键点的采样,从而实现对前景物体更完整的覆盖和更准确且鲁棒的定位和识别。
实施例三
本实施例提供了一种电子设备,该电子设备可以理解为具有数据计算和信息处理能力的计算机或服务器,该电子设备设置有上一实施例提供的3D目标检测模型的构建装置。该装置用于对输入的点云场景进行处理,得到点云场景的多个点云特征;对多个点云特征进行采样处理,得到点云场景的多个关键点;基于多个关键点进行模型构建,得到3D目标检测模型。本方案根据具体点云场景中特定的信息自适应地进行关键点的采样,从而实现对前景物体更完整的覆盖和更准确且鲁棒的定位和识别。
实施例四
图5为本申请实施例的一种电子设备的框图。
如图5所示,本实施例提供的电子设备可以理解为具有数据计算和信息处理能力的计算机或服务器,该电子设备包括至少一个处理器101和存储器102,两者通过数据总线103连接。该存储器用于存储计算机程序或指令,该处理器用于执行相应计算机程序或指令,以使该电子设备能够实现实施例一中的3D目标检测模型的构建方法。
该构建方法具体为对输入的点云场景进行处理,得到点云场景的多个点云特征;对多个点云特征进行采样处理,得到点云场景的多个关键点;基于多个关键点进行模型构建,得到3D目标检测模型。本方案根据具体点云场景中特定的信息自适应地进行关键点的采样,从而实现对前景物体更完整的覆盖和更准确且鲁棒的定位和识别。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本发明所提供的技术方案进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (6)

1.一种3D目标检测模型的构建方法,应用于电子设备,其特征在于,所述构建方法包括步骤:
对输入的点云场景进行处理,得到所述点云场景的多个点云特征,包括:捕获所述点云场景的远距离语义信息,捕获所述点云场景的局部结构信息,将所述远距离语义信息和所述局部结构信息沿通道维度进行拼接处理,得到所述多个点云特征;
对所述多个点云特征进行采样处理,得到所述点云场景的多个关键点;
基于所述多个关键点进行模型构建,得到3D目标检测模型;
所述捕获所述点云场景的远距离语义信息包括:通过多头自注意力机制
Figure DEST_PATH_IMAGE001
捕获所述点云场景的远距离语义信息;其中,
Figure 753277DEST_PATH_IMAGE002
,F1是多头自注意力机制的输入特征,WQ、WK、WV分别是查询、键和值的变换矩阵,C是输入特征通道维度,Softmax是神经网络输出层的激励函数,H为多头自注意力机制的输出;
所述捕获所述点云场景的局部结构信息包括:通过点云核心点卷积
Figure DEST_PATH_IMAGE003
捕获点云场景的局部结构信息;其中,K是设置的核心点个数,
Figure 358833DEST_PATH_IMAGE004
是核心点,
Figure 607412DEST_PATH_IMAGE005
是相关权重矩阵,
Figure 471462DEST_PATH_IMAGE006
表示线性相关函数,
Figure 3944DEST_PATH_IMAGE007
,其中r是手动设置的核半径,f i 是x i 所对应的特征,g是核函数,
Figure 295248DEST_PATH_IMAGE008
表示核心点卷积;
所述对所述多个点云特征进行采样处理,得到所述点云场景的多个关键点包括:根据点云场景对可学习的关键点采样原型进行自适应更新,并基于更新后的关键点采样原型通过余弦相似性捕获与更新后的原型相似的关键点;
所述更新后的关键点采样原型为:
Figure 31123DEST_PATH_IMAGE009
其中,
Figure 495602DEST_PATH_IMAGE011
,P是可学习的关键点采样原型,F2是输入的点云特征,WQ、WK、WV分别是查询、键和值的变换矩阵,C是输入特征通道维度,Softmax是神经网络输出层的激励函数,
Figure 633322DEST_PATH_IMAGE012
是场景自适应更新后的关键点采样原型。
2.如权利要求1所述的构建方法,其特征在于,所述3D目标检测模型的损失函数包括建议框的第一约束损失函数、点云前背景点的第二约束损失函数和每个所述关键点的初始预测框的第三约束损失函数。
3.一种3D目标检测模型的构建装置,应用于电子设备,其特征在于,所述构建装置包括:
Transformer编码器模块,被配置为对输入的点云场景进行处理,得到所述点云场景的多个点云特征,所述Transformer编码器模块包括第一捕获单元、第二捕获单元和拼接处理单元,第一捕获单元被配置为捕获所述点云场景的远距离语义信息,所述第二捕获单元被配置为捕获所述点云场景的局部结构信息,所述拼接处理单元被配置为将所述远距离语义信息和所述局部结构信息沿通道维度进行拼接处理,得到所述多个点云特征;
关键点动态采样模块,被配置为对所述多个点云特征进行采样处理,得到所述点云场景的多个关键点;
动态Transformer解码器模块,被配置为基于所述多个关键点进行模型构建,得到3D目标检测模型;
所述捕获所述点云场景的远距离语义信息包括:通过多头自注意力机制
Figure 843331DEST_PATH_IMAGE013
捕获所述点云场景的远距离语义信息;其中,
Figure 66501DEST_PATH_IMAGE002
,F1是多头自注意力机制的输入特征,WQ、WK、WV分别是查询、键和值的变换矩阵,C是输入特征通道维度,Softmax是神经网络输出层的激励函数,H为多头自注意力机制的输出;
所述捕获所述点云场景的局部结构信息包括:通过点云核心点卷积
Figure 272355DEST_PATH_IMAGE003
捕获点云场景的局部结构信息;其中,K是设置的核心点个数,
Figure 264582DEST_PATH_IMAGE004
是核心点,
Figure 881377DEST_PATH_IMAGE005
是相关权重矩阵,
Figure 60685DEST_PATH_IMAGE006
表示线性相关函数,
Figure 555383DEST_PATH_IMAGE007
,其中r是手动设置的核半径,f i 是x i 所对应的特征,g是核函数,
Figure 667695DEST_PATH_IMAGE008
表示核心点卷积;
所述对所述多个点云特征进行采样处理,得到所述点云场景的多个关键点包括:根据点云场景对可学习的关键点采样原型进行自适应更新,并基于更新后的关键点采样原型通过余弦相似性捕获与更新后的原型相似的关键点;
所述更新后的关键点采样原型为:
Figure 206124DEST_PATH_IMAGE009
其中,
Figure 669466DEST_PATH_IMAGE011
,P是可学习的关键点采样原型,F2是输入的点云特征,WQ、WK、WV分别是查询、键和值的变换矩阵,C是输入特征通道维度,Softmax是神经网络输出层的激励函数,
Figure 935231DEST_PATH_IMAGE012
是场景自适应更新后的关键点采样原型。
4.如权利要求3所述的构建装置,其特征在于,所述3D目标检测模型的损失函数包括建议框的第一约束损失函数、点云前背景点的第二约束损失函数和每个所述关键点的初始预测框的第三约束损失函数。
5.一种电子设备,其特征在于,设置有如权利要求3或4所述的3D目标检测模型的构建装置。
6.一种电子设备,其特征在于,包括至少一个处理器和与所述处理器连接的存储器,其中:
所述存储器用于存储计算机程序或指令;
所述处理器用于执行所述计算机程序或指令,以使所述电子设备实现如权利要求1或2所述的3D目标检测模型的构建方法。
CN202210340988.0A 2022-04-02 2022-04-02 一种3d目标检测模型的构建方法、装置和电子设备 Active CN114494609B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210340988.0A CN114494609B (zh) 2022-04-02 2022-04-02 一种3d目标检测模型的构建方法、装置和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210340988.0A CN114494609B (zh) 2022-04-02 2022-04-02 一种3d目标检测模型的构建方法、装置和电子设备

Publications (2)

Publication Number Publication Date
CN114494609A CN114494609A (zh) 2022-05-13
CN114494609B true CN114494609B (zh) 2022-09-06

Family

ID=81488913

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210340988.0A Active CN114494609B (zh) 2022-04-02 2022-04-02 一种3d目标检测模型的构建方法、装置和电子设备

Country Status (1)

Country Link
CN (1) CN114494609B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116258809B (zh) * 2022-12-13 2024-04-12 江苏重华数字科技有限公司 一种轻量化3d模型存储结构工作方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3816655A1 (en) * 2019-10-31 2021-05-05 Aptiv Technologies Limited Multi-domain neighborhood embedding and weighting of point cloud data
CN112861691A (zh) * 2021-01-29 2021-05-28 中国科学技术大学 基于部位感知建模的遮挡场景下的行人重识别方法
CN113159151A (zh) * 2021-04-12 2021-07-23 中国科学技术大学 面向自动驾驶的多传感器深度融合3d目标检测方法
CN113657246A (zh) * 2021-08-13 2021-11-16 哈尔滨工程大学 一种基于自监督学习的三维点云二阶段目标检测方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102713671A (zh) * 2009-12-11 2012-10-03 株式会社拓普康 点群数据处理装置、点群数据处理方法和点群数据处理程序
CN105184852B (zh) * 2015-08-04 2018-01-30 百度在线网络技术(北京)有限公司 一种基于激光点云的城市道路识别方法及装置
CN111670572B (zh) * 2018-02-09 2022-01-28 索尼公司 校准装置、校准方法和计算机可读存储介质
CN111144304A (zh) * 2019-12-26 2020-05-12 上海眼控科技股份有限公司 车辆目标检测模型的生成方法、车辆目标检测方法及装置
CN113706480B (zh) * 2021-08-13 2022-12-09 重庆邮电大学 一种基于关键点多尺度特征融合的点云3d目标检测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3816655A1 (en) * 2019-10-31 2021-05-05 Aptiv Technologies Limited Multi-domain neighborhood embedding and weighting of point cloud data
CN112861691A (zh) * 2021-01-29 2021-05-28 中国科学技术大学 基于部位感知建模的遮挡场景下的行人重识别方法
CN113159151A (zh) * 2021-04-12 2021-07-23 中国科学技术大学 面向自动驾驶的多传感器深度融合3d目标检测方法
CN113657246A (zh) * 2021-08-13 2021-11-16 哈尔滨工程大学 一种基于自监督学习的三维点云二阶段目标检测方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
L2G Auto-encoder: Understanding Point Clouds by Local-to-Global Reconstruction with Hierarchical Self-Attention;Xinhai Liu,Zhizhong Han,etc;《Proceedings of the 27th ACM International Conference on Multimedia》;20191015;989–997 *
Li Chen ; Weiye Chen,etc.DAPnet: A Double Self-Attention Convolutional Network for Point Cloud Semantic Labeling.《IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing》.2021,第14卷 *
MLCVNet: Multi-Level Context VoteNet for 3D Object Detection;Qian Xie, Yu-Kun Lai,etc;《Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)》;20200805;10447-10456 *
Shi Qiu ; Yunfan Wu,etc.Investigating Attention Mechanism in 3D Point Cloud Object Detection.《2021 International Conference on 3D Vision (3DV)》.2022, *
基于激光雷达点云的船舶目标检测方法研究;张杰;《中国优秀博硕士学位论文全文数据库(硕士)工程科技Ⅱ辑》;20220315(第03期);C036-435 *
面向交通场景的3D目标检测研究;兰天蔚;《中国优秀博硕士学位论文全文数据库(硕士)基础科学辑》;20220315(第03期);A005-372 *

Also Published As

Publication number Publication date
CN114494609A (zh) 2022-05-13

Similar Documents

Publication Publication Date Title
CN110378222B (zh) 一种输电线路防震锤目标检测与缺陷识别方法及装置
CN115171165A (zh) 全局特征与阶梯型局部特征融合的行人重识别方法及装置
CN108171217A (zh) 一种基于点融合网络的三维物体检测方法
CN107403424A (zh) 一种基于图像的车辆定损方法、装置及电子设备
Li et al. An anti-fraud system for car insurance claim based on visual evidence
CN112633459A (zh) 训练神经网络的方法、数据处理方法和相关装置
Choi et al. Attention-based multimodal image feature fusion module for transmission line detection
CN110569814B (zh) 视频类别识别方法、装置、计算机设备及计算机存储介质
Cepni et al. Vehicle detection using different deep learning algorithms from image sequence
CN117079139B (zh) 一种基于多尺度语义特征的遥感图像目标检测方法及系统
CN114494609B (zh) 一种3d目标检测模型的构建方法、装置和电子设备
CN110490915B (zh) 一种基于卷积受限玻尔兹曼机的点云配准方法
CN111563398A (zh) 用于确定目标物的信息的方法和装置
CN114170516A (zh) 一种基于路侧感知的车辆重识别方法、装置及电子设备
CN110619280B (zh) 一种基于深度联合判别学习的车辆重识别方法及装置
Dong et al. Learning regional purity for instance segmentation on 3d point clouds
CN117456480B (zh) 一种基于多源信息融合的轻量化车辆再辨识方法
CN112613539A (zh) 分类网络及物体检测模型构建方法、装置、设备及介质
CN115810020B (zh) 一种基于语义引导的由粗到细的遥感图像分割方法及系统
CN116958809A (zh) 一种特征库迁移的遥感小样本目标检测方法
CN116310925A (zh) 一种建筑材料的视频计数方法、装置、设备及存储介质
CN115861927A (zh) 电力设备巡检图像的图像识别方法、装置和计算机设备
Byzkrovnyi et al. Comparison of Object Detection Algorithms for the Task of Person Detection on Jetson TX2 NX Platform
CN115272814B (zh) 一种远距离空间自适应多尺度的小目标检测方法
Liu et al. A corrosion detection algorithm via the random forest model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant