CN117058472A - 基于自注意力机制的3d目标检测方法、装置、设备 - Google Patents

基于自注意力机制的3d目标检测方法、装置、设备 Download PDF

Info

Publication number
CN117058472A
CN117058472A CN202311316106.8A CN202311316106A CN117058472A CN 117058472 A CN117058472 A CN 117058472A CN 202311316106 A CN202311316106 A CN 202311316106A CN 117058472 A CN117058472 A CN 117058472A
Authority
CN
China
Prior art keywords
loss
frame
foreground
layer
dimensional
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311316106.8A
Other languages
English (en)
Other versions
CN117058472B (zh
Inventor
杜吉祥
蔡黎明
张洪博
刘怀进
翟传敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huaqiao University
Original Assignee
Huaqiao University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huaqiao University filed Critical Huaqiao University
Priority to CN202311316106.8A priority Critical patent/CN117058472B/zh
Publication of CN117058472A publication Critical patent/CN117058472A/zh
Application granted granted Critical
Publication of CN117058472B publication Critical patent/CN117058472B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/766Arrangements for image or video recognition or understanding using pattern recognition or machine learning using regression, e.g. by projecting features on hyperplanes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Abstract

本发明提供了基于自注意力机制的3D目标检测方法、装置、设备,涉及人工智能和计算机视觉技术领域,针对在两阶段网络模型中第一阶段得到感兴趣区域后点与点之间的信息密度不高问题,提出了一种基于自注意力机制的3D目标检测算法,通过增强点与点之间的交互信息密度,进而提高感受野的覆盖范围。在KITTI数据集上的实验证明,该方法在汽车、行人、自行车类数据集上的平均检测精度有了较大的提升,尤其在小目标稀疏的点中效果显著,这进一步证实了该算法的有效性。

Description

基于自注意力机制的3D目标检测方法、装置、设备
技术领域
本发明涉及人工智能和计算机视觉技术领域,具体涉及基于自注意力机制的3D目标检测方法、装置、设备。
背景技术
近年来,三维点云的目标检测因其在自动驾驶、机器人、虚拟现实等领域的应用而备受关注。然而,在三维场景中的物体具有不同的方向分布,普通的检测器不能明确地模拟旋转和反射变换的变化。因此,鲁棒检测需要大规模的网络和大量的数据增强。近期有一些网络模型通过在多个变换点云上应用共享网络,进行显式地建模转换变化,在物体几何建模中显示出巨大的潜力。但是,由于其计算成本大、推理速度慢,很难将此类网络应用于自动驾驶中的3D目标检测。与2D图像不同,3D点云在连续空间中自然稀疏且分布不均匀,阻碍了卷积神经网络层的直接应用。
由于人工智能的迅速发展,自动驾驶技术备受期待,也推动了深度学习领域的3D目标检测研究不断发展。其中,点云数据是通过激光雷达获取的,具有深度信息,极大的弥补了在2D目标检测中使用图像的不足。尽管在3D目标检测领域已经有了一些进展,但在实际应用中,仍然存在许多未被考虑的问题。点云本身的不规则无序性,会造成的点与点之间的信息密度和联系性不高的问题;在对点云的学习中,现有方法通常依赖于物体的表面纹理特征,这容易导致混淆。点云中的点不像图像中的像素一样,具有严格的顺序,即如果通过一个数据存储点云,随机的打乱数组的顺序,并不会有任何影响;点云中的点之间没有顺序的概念,当物体的朝向不同时,其对应的特征却是相同的,在空间中每个点不是孤立的存在,如何使相邻点构成的领域具有更强的联系性和紧密性,在任何情况下都可以精准的检测出物体,还面临一些挑战。
Transformer神经网络最初是应用于处理自然语言的,由于Transformer神经网络的架构超越了卷积,并在图像分类、检测和分割任务中表现出优越的性能,正在成为计算机视觉中具有竞争力的特征学习模块。与传统的卷积神经网络相比,Transformer神经网络具有更大的感受野,直接从成对特征中学习,进行特征聚合。CT3D在每个提议框处构造一个圆柱状的感兴趣区域,采用基于Transformer神经网络的编码器-解码器结构,直接从邻近点提取感兴趣区域特征。VoxSeT技术引入了体素Transformer层来替换基于体素的点云主干网络中的稀疏卷积层,通过自注意力实现体素之间的远程关系;VoxSeT技术将体素集Transformer通过集合到集合的转换从点云中检测3D物体。DETR算法使用了Transformer编码器-解码器结构,从学习到的查询嵌入中预测对象;SST使用单步稀疏Transformer作为骨干网络,以防止之前的3D目标检测器下采样时的信息丢失,Point Transformer引入了点转换器,这是一种直接作用于无序和非结构化点集的深度神经网络,在基于点云的3D目标检测上提供了新的思路。
鉴于在检测自然稀疏和不完整的3D物体时需要较大的感受野,想要编码获取更丰富的上下文信息,相比于卷积神经网络,使用Transformer作为设计方案能够更好地编码获取更丰富的上下文信息,这是因为Transformer中采用了自注意力机制,可以感知输入序列的全局信息,并且在时空维度上对其进行建模。进而更好地学习图像与特征中的长距离依赖。自注意力网络已经彻底改变了自然语言处理领域,并在图像分类和目标检测等图像分析任务中取得了显著的进展,因此在点云三维目标检测方面Transformer有巨大潜力。而针对现市面上的点云的三维目标检测技术的难点主要在于,点云的不规则性,即在两阶段网络模型中第一阶段得到感兴趣区域后,现有点云的三维目标检测技术存在丢失点云特征信息严重、以及点与点之间的信息密度低的问题。
有鉴于此,提出本申请。
发明内容
有鉴于此,本发明的目的在于提供基于自注意力机制的3D目标检测方法、装置、设备,能够有效解决现有技术中的3D目标检测方法在两阶段网络模型中第一阶段得到感兴趣区域后,点与点之间的信息密度不高的问题。
本发明公开了基于自注意力机制的3D目标检测方法, 包括:
获取KITTI数据集中的待检测图像和输入点云数据,并调用训练好的TF-PointRCNN模型对所述输入点云数据进行检测;
调用所述TF-PointRCNN模型的骨干网络对所述输入点云数据进行提取分类处理,生成三维预测候选框,其中,所述骨干网络的主干网络采用多尺度PointNet++结构,具体为:
采用所述骨干网络对所述输入点云数据中的每个点进行特征提取处理,生成128维的特征向量;
采用多尺度PointNet++结构中的特征上采样层对所述128维的特征进行分割处理,生成多个前景点;
对每一所述前景点进行分类回归处理,生成三维预测候选框;
调用所述TF-PointRCNN模型的感兴趣区域细化层对所述三维预测候选框进行筛选提取处理,输出精细框,具体为:
运用Transformer自注意力机制构建感兴趣区域细化层;
将所述三维预测候选框依次经过三层全连接层进行坐标转换处理,将所述三维预测候选框的维度从128维降至8维;
根据先进行坐标转换和非极大值抑制对坐标转换后的所述三维预测候选框进行特征筛选处理,生成输入点和筛选特征;
调用所述感兴趣区域细化层的前馈网络对所述输入点进行预处理,并将预处理后的所述输入点输入Transformer层进行编码处理,生成点信息;
调用所述感兴趣区域细化层的MLP多层感知机对所述点信息和所述筛选特征进行合并特征处理,并将合并后的数据与未经过Transformer层处理的特征进行特征融合,生成精细框;
对所述待检测图像和所述精细框进行可视化操作,生成3D目标检测图像,其中,所述3D目标检测图像为被所述精细框框好的所述待检测图像。
优选地,在调采用多尺度PointNet++结构中的特征上采样层对所述128维的特征进行分割处理,生成多个前景点后,还包括:
对所述前景点进行第一损失处理,所述第一损失处理包括前背景分类损失和边界框回归损失;
其中,所述前背景分类损失的公式为,/>为前背景分类损失,t为前景点即正确分类点,/>为正确分类的概率;/>,/>为超参数调节因子,/>=0.25,/>=2;
其中,所述边界框回归损失使用了SmoothL1损失函数,公式为,/>为边界框回归损失,/>为边界框每一项的权重,/>为预测框,/>为标签真值框,/>为参数,/>=1.0/9.0。
优选地,在调用所述感兴趣区域细化层的前馈网络对所述输入点进行预处理,并将预处理后的所述输入点输入Transformer层进行编码处理,生成点信息之后,还包括:
对ROI候选框与真值框IOU进行第二损失处理,所述第二损失处理包括ROI候选框与真值框IOU大于0.6的分类损失和IOU大于0.55的回归损失;
其中,所述分类损失的公式为,/>表示预测前景ROI的类别置信度分数,N为批次的大小,/>为前景分类损失权重,/>为前景,/>为背景;
其中,所述回归损失包括对前景ROI的微调结果与真值框的计算损失,公式为,/>为边界框回归损失,/>为边界框每一项的权重,/>为预测框,/>为标签真值框,/>为参数,/>=1.0/9.0;
所述回归损失还包括前景ROI与真值框角点的正则化损失,公式为,/>是真值框和预测框的8个顶点差值的和,/>为真实方向的预测值,/>为正确方向的预测值,/>为相反方向的预测值。
本发明还公开了基于自注意力机制的3D目标检测装置,包括:
点云获取单元,用于获取KITTI数据集中的待检测图像和输入点云数据,并调用训练好的TF-PointRCNN模型对所述输入点云数据进行检测;
候选框生成单元,用于调用所述TF-PointRCNN模型的骨干网络对所述输入点云数据进行提取分类处理,生成三维预测候选框,其中,所述骨干网络的主干网络采用多尺度PointNet++结构,具体为:
采用所述骨干网络对所述输入点云数据中的每个点进行特征提取处理,生成128维的特征向量;
采用多尺度PointNet++结构中的特征上采样层对所述128维的特征进行分割处理,生成多个前景点;
对每一所述前景点进行分类回归处理,生成三维预测候选框;
精细框生成单元,用于调用所述TF-PointRCNN模型的感兴趣区域细化层对所述三维预测候选框进行筛选提取处理,输出精细框,具体为:
运用Transformer自注意力机制构建感兴趣区域细化层;
将所述三维预测候选框依次经过三层全连接层进行坐标转换处理,将所述三维预测候选框的维度从128维降至8维;
根据先进行坐标转换和非极大值抑制对坐标转换后的所述三维预测候选框进行特征筛选处理,生成输入点和筛选特征;
调用所述感兴趣区域细化层的前馈网络对所述输入点进行预处理,并将预处理后的所述输入点输入Transformer层进行编码处理,生成点信息;
调用所述感兴趣区域细化层的MLP多层感知机对所述点信息和所述筛选特征进行合并特征处理,并将合并后的数据与未经过Transformer层处理的特征进行特征融合,生成精细框;
目标图像输出单元,用于对所述待检测图像和所述精细框进行可视化操作,生成3D目标检测图像,其中,所述3D目标检测图像为被所述精细框框好的所述待检测图像。
本发明还公开了基于自注意力机制的3D目标检测设备,包括处理器、存储器以及存储在存储器中且被配置由处理器执行的计算机程序,处理器执行计算机程序时实现如上任意一项的基于自注意力机制的3D目标检测方法。
本发明还公开了可读存储介质,存储有计算机程序,计算机程序能够被该存储介质所在设备的处理器执行,以实现如上任意一项的基于自注意力机制的3D目标检测方法。
综上所述,本实施例提供的基于自注意力机制的3D目标检测方法、装置、设备,针对在两阶段网络模型中第一阶段得到感兴趣区域后点与点之间的信息密度不高问题,提出了一种基于自注意力机制的3D目标检测算法,通过增强点与点之间的交互信息密度,进而提高感受野的覆盖范围。在KITTI数据集上的实验证明,该方法在汽车、行人、自行车类数据集上的平均检测精度有了较大的提升,尤其在小目标稀疏的点中效果显著,这进一步证实了该算法的有效性。从而解决现有技术中的3D目标检测方法在两阶段网络模型中第一阶段得到感兴趣区域后,点与点之间的信息密度不高的问题。
附图说明
图1是本发明实施例提供的基于自注意力机制的3D目标检测方法的流程示意图。
图2是本发明实施例提供的基于自注意力机制的3D目标检测方法的TF-PointRCNN模型的总体框架示意图。
图3是本发明实施例提供的基于自注意力机制的3D目标检测方法的感兴趣区域细化层的框架示意图。
图4是本发明实施例提供的基于自注意力机制的3D目标检测装置的模块示意图。
具体实施方式
为使本发明实施方式的目的、技术方案和优点更加清楚,下面将结合本发明实施方式中的附图,对本发明实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式是本发明一部分实施方式,而不是全部的实施方式。基于本发明中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。因此,以下对在附图中提供的本发明的实施方式的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施方式。基于本发明中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。
以下结合附图对本发明的具体实施例做详细说明。
请参阅图1至图2,本发明的第一实施例提供了基于自注意力机制的3D目标检测方法、装置、设备,其可由3D目标检测设备(以下检测设备)来执行,特别的,由检测设备内的一个或者多个处理器来执行,以实现如下步骤:
在本实施例中,所述检测设备可为用户终端设备(如智能手机、智能电脑或者其他智能设备),该用户终端设备可与云端的服务器建立通讯连接,以实现数据的交互。
S101,获取KITTI数据集中的待检测图像和输入点云数据,并调用训练好的TF-PointRCNN模型对所述输入点云数据进行检测;
S102,调用所述TF-PointRCNN模型的骨干网络对所述输入点云数据进行提取分类处理,生成三维预测候选框,其中,所述骨干网络的主干网络采用多尺度PointNet++结构;
具体地,步骤S102包括:采用所述骨干网络对所述输入点云数据中的每个点进行特征提取处理,生成128维的特征向量;
采用多尺度PointNet++结构中的特征上采样层对所述128维的特征进行分割处理,生成多个前景点;
对每一所述前景点进行分类回归处理,生成三维预测候选框。
具体地,在本实施例中,所述基于自注意力机制的3D目标检测方法的TF-PointRCNN(Transformer PointRCNN)总体框架如图2所示,整体模型分为两个阶段:第一阶段,使用骨干网络分类出前景点并生成预测候选框;第二阶段,运用Transformer自注意力机制构建感兴趣区域(Region of Interest,ROI)细化层,对候选框进一步细化筛选。再进行特征提取,最后得到精细化的回归框。在第一阶段的骨干网络特征提取中,主干网络采用多尺度PointNet++结构,然后采用PointNet++中的特征上采样层进行处理,将得到的特征向量进行前景点分割,然后对前景点进行分类回归生成三维候选框。
在本实施例中,在TF-PointRCNN模型的第一阶段,采用PointNet++网络作为特征提取骨干网络,用于将点云中的每个点提取到128维的特征。骨干网络特征提取的输出由两部分组成,即各点坐标(16384×3)和特征(128×16384)。训练过程中使用标注框来确定前景点信息,并以前景点为中心直接提取各点的分类和回归特征,得到每个点的候选框。当某个点属于前景点时,它对应的候选框才更有可能成为真实的候选框。为了进一步提高候选框的准确性,需要对第一阶段生成的候选框进行筛选。
S103,调用所述TF-PointRCNN模型的感兴趣区域细化层对所述三维预测候选框进行筛选提取处理,输出精细框;
请参阅图3,具体地,步骤S103包括:运用Transformer自注意力机制构建感兴趣区域细化层;
将所述三维预测候选框依次经过三层全连接层进行坐标转换处理,将所述三维预测候选框的维度从128维降至8维;
根据先进行坐标转换和非极大值抑制对坐标转换后的所述三维预测候选框进行特征筛选处理,生成输入点和筛选特征;
调用所述感兴趣区域细化层的前馈网络对所述输入点进行预处理,并将预处理后的所述输入点输入Transformer层进行编码处理,生成点信息;
调用所述感兴趣区域细化层的MLP多层感知机对所述点信息和所述筛选特征进行合并特征处理,并将合并后的数据与未经过Transformer层处理的特征进行特征融合,生成精细框。
S104,对所述待检测图像和所述精细框进行可视化操作,生成3D目标检测图像,其中,所述3D目标检测图像为被所述精细框框好的所述待检测图像。
具体地,在本实施例中,为了进一步提高候选框的准确性,需要对第一阶段生成的候选框进行筛选;因此,本模型引入了第二阶段的感兴趣区域细化层框架,其详细步骤如图3所示。在第二阶段通过加入Transformer自注意力机制的感兴趣区域细化层,先进行坐标转换和非极大值抑制对候选框进行筛选,然后通过前馈网络和Transformer编码,提高了点与点之间的交互信息密度,增强了感受野。再进行特征提取,最后分类回归得到精细框。
在本实施例中,第一步,坐标转换;将第一阶段得到的128维特征经过3层全连接层后维度变为8,其中,前三个维度表示预测框相对于真实框的中心偏差;中间三个维度表示预测框相对于真实框的尺寸偏差;最后两个维度表示预测框的角度方向,即分别为角度的余弦和正弦。假设这8个维度变量分别为xt、yt、zt、dxt、dyt、dzt、cost、sint,对应的真实框坐标为x、y、z、dx、dy、dz,对应的预测框坐标和角度为xp、yp、zp、dxp、dyp、dzp、rp。x、y、z为各个点自身的坐标。它们之间的关系定义如下:
通过上述八个公式所示,将预测框的偏差xt、yt、zt、dxt、dyt、dzt、cost、sint,转换为对应预测框的3D规范边界框坐标和角度xp、yp、zp、dxp、dyp、dzp、rp。预测框维度由8维变为7维,正弦和余弦由角度直接表征。
第二步,特征筛选;分别统计各个3D候选框中包含真实点的个数,筛选出含真实点的候选框。按照目标预测概率,选择出概率较大的前9000个候选框。利用非极大值抑制(Non-Maximum Suppression,NMS)从9000个候选框中选择出512个候选框。
第三步,针对筛选过后的点,对每个点使用前馈网络得到dm的高维特征,然后,让所有点连接起来,使用多头注意机制层获得每个点之间的空间和高阶关系,以此提高点之间的信息密度,如公式所示:
其中,xyz为输入的点;conv为二维卷积神经网络;bn为进行数据的归一化处理,使数据在进行激活函数之前不会因为数据过大而导致网络性能的不稳定;Mish为激活函数,在深度神经网络中,可以提高模型的性能,并且可以在少量的训练时间内进行更快的训练;selfattention为Transformer编码层,得到更新的点
第四步,将得到的点信息与特征进行合并,通过MLP多层感知机的处理,与未经过Transformer层处理的特征进行特征融合,输出特征。
具体地,在本实施例中,在调采用多尺度PointNet++结构中的特征上采样层对所述128维的特征进行分割处理,生成多个前景点后,还包括:
对所述前景点进行第一损失处理,所述第一损失处理包括前背景分类损失和边界框回归损失;
其中,所述前背景分类损失的公式为,/>为前背景分类损失,t为前景点即正确分类点,/>为正确分类的概率;/>,/>为超参数调节因子,/>=0.25,/>=2;
其中,所述边界框回归损失使用了SmoothL1损失函数,公式为,/>为边界框回归损失,/>为边界框每一项的权重,/>为预测框,/>为标签真值框,/>为参数,/>=1.0/9.0。
在本实施例中,TP-PointRCNN模型的损失共两个阶段,第一阶段的损失包含前背景分类损失和边界框回归损失;分类损失为:
其中,为前背景分类损失,t为前景点即正确分类点;/>为正确分类的概率;,/>为超参数调节因子,/>=0.25,/>=2。
回归损失使用了SmoothL1:
其中,为边界框回归损失,/>为边界框每一项的权重,/>为预测框,/>为标签真值框,/>为参数,/>=1.0/9.0。
具体地,在本实施例中,在调用所述感兴趣区域细化层的前馈网络对所述输入点进行预处理,并将预处理后的所述输入点输入Transformer层进行编码处理,生成点信息之后,还包括:
对ROI候选框与真值框IOU进行第二损失处理,所述第二损失处理包括ROI候选框与真值框IOU大于0.6的分类损失和IOU大于0.55的回归损失;
其中,所述分类损失的公式为,/>表示预测前景ROI的类别置信度分数,N为批次的大小,/>为前景分类损失权重,/>为前景,/>为背景;
其中,所述回归损失包括对前景ROI的微调结果与真值框的计算损失,公式为,/>为边界框回归损失,/>为边界框每一项的权重,/>为预测框,/>为标签真值框,/>为参数,/>=1.0/9.0;
所述回归损失还包括前景ROI与真值框角点的正则化损失,公式为,/>是真值框和预测框的8个顶点差值的和,/>为真实方向的预测值,/>为正确方向的预测值,/>为相反方向的预测值。
在本实施例中,第二阶段的损失包含ROI候选框与真值框IOU大于0.6的ROI分类损失和IOU大于0.55的ROI回归损失。分类损失为:
其中,表示预测前景ROI的类别置信度分数。对于每个预测框与其对应的真值框,如果它们之间的IOU大于0.6,则将其视为前景,并给予数值1;如果IOU在0.45和0.6之间,则忽略计算损失,并给予数值-1;如果IOU小于0.45,则将其视为背景,并给予数值0。N为批次的大小;/>为前景分类损失权重;/>为前景;/>为背景。
回归损失由两部分构成,第一部分为通过对前景ROI的微调结果与真值框计算损失,其公式与上述使用了SmoothL1的边界框回归损失计算一样,对每个参数使用SmoothL1;第二部分为前景ROI与真值框角点的正则化损失,公式为:
其中,是真值框和预测框的8个顶点差值的和,作为多任务优化参数的正则项。
当处理预测框和真值框/>时,将它们的边界框坐标系都转换到以自身为中心的坐标系中。P的i、j、k表示边界框不同类别的尺度、旋转角和预定义的顶角顺序。在计算损失时,会考虑角度预测方向正确和相反的两种情况,并分别计算它们的损失值,最终选择较小的值作为边界框的损失,这样做是为了避免因为角度估计错误而导致的过大正则化项。二维掩码/>用于选择需要计算损失的距离项。
具体地,在本实施例中,为了验证所述基于自注意力机制的3D目标检测方法提出的算法的有效性,根据OpenPCDet框架提供的代码指令,先对框架内的PointRCNN基准模型进行复现,然后对所述基于自注意力机制的3D目标检测方法所提出的TF-PointRCNN模型进行训练。针对汽车类的目标设置了0.7的IOU阈值,并考虑到人和自行车类的样本数据较少,将它们的IOU阈值设置为0.5。分别采用AP_R11与AP_R40记录平均检测精度(AP)。在汽本章算法与现有算法、PointRCNN算法的平均检测精度对比如表1注:表中黑体字体数据表示的是最佳实验结果。
表1在汽车类KITTI验证集上R11情况下的平均检测精度对比
总的来说,所述基于自注意力机制的3D目标检测方法的TF-PointRCNN模型,整体分为两个阶段:第一阶段,使用骨干网络分类出前景点并生成预测候选框;第二阶段运用Transformer自注意力机制构建感兴趣区域(Region of Interest,ROI)细化层,对候选框进一步细化筛选。再进行特征提取,最后得到精细化的回归框。在第一阶段的骨干网络特征提取中,主干网络采用多尺度PointNet++结构,然后采用PointNet++中的特征上采样层进行处理,将得到的特征向量进行前景点分割,然后对前景点进行分类回归生成三维候选框;在第二阶段通过加入Transformer自注意力机制的感兴趣区域细化层,先进行坐标转换和非极大值抑制对候选框进行筛选,然后通过前馈网络和Transformer编码,提高了点与点之间的交互信息密度,增强了感受野。再进行特征提取,最后分类回归得到精细框。
综上,所述基于自注意力机制的3D目标检测方法针对在两阶段网络模型中第一阶段得到感兴趣区域后点与点之间的信息密度不高问题,提出了一种基于自注意力机制的3D目标检测算法,引入Transformer机制增强点与点之间的交互信息密度,进而提高感受野的覆盖范围;并利用PointRCN架构为基础提升基于3D目标检测的准确率。简单来说,所述基于自注意力机制的3D目标检测方法的关键点在于提出了基于PointRCNN与Transformer融合的新模型,提高了在3D目标检测中的易出现外部遮挡造成的噪声以及检测的准确率。即,提出了TF-PointRCNN 框架,该框架有效地利用了Transformer的方法,提高了点与点之间的信息密度,增强了特征信息的感受野,使三维目标检测性能得到有效提高。
请参阅图4,本发明的第二实施例提供了基于自注意力机制的3D目标检测装置,包括:
点云获取单元201,用于获取KITTI数据集中的待检测图像和输入点云数据,并调用训练好的TF-PointRCNN模型对所述输入点云数据进行检测;
候选框生成单元202,用于调用所述TF-PointRCNN模型的骨干网络对所述输入点云数据进行提取分类处理,生成三维预测候选框,其中,所述骨干网络的主干网络采用多尺度PointNet++结构,具体为:
采用所述骨干网络对所述输入点云数据中的每个点进行特征提取处理,生成128维的特征向量;
采用多尺度PointNet++结构中的特征上采样层对所述128维的特征进行分割处理,生成多个前景点;
对每一所述前景点进行分类回归处理,生成三维预测候选框;
精细框生成单元203,用于调用所述TF-PointRCNN模型的感兴趣区域细化层对所述三维预测候选框进行筛选提取处理,输出精细框,具体为:
运用Transformer自注意力机制构建感兴趣区域细化层;
将所述三维预测候选框依次经过三层全连接层进行坐标转换处理,将所述三维预测候选框的维度从128维降至8维;
根据先进行坐标转换和非极大值抑制对坐标转换后的所述三维预测候选框进行特征筛选处理,生成输入点和筛选特征;
调用所述感兴趣区域细化层的前馈网络对所述输入点进行预处理,并将预处理后的所述输入点输入Transformer层进行编码处理,生成点信息;
调用所述感兴趣区域细化层的MLP多层感知机对所述点信息和所述筛选特征进行合并特征处理,并将合并后的数据与未经过Transformer层处理的特征进行特征融合,生成精细框;
目标图像输出单元204,用于对所述待检测图像和所述精细框进行可视化操作,生成3D目标检测图像,其中,所述3D目标检测图像为被所述精细框框好的所述待检测图像。
本发明的第三实施例提供了基于自注意力机制的3D目标检测设备,包括处理器、存储器以及存储在存储器中且被配置由处理器执行的计算机程序,处理器执行计算机程序时实现如上任意一项的基于自注意力机制的3D目标检测方法。
本发明的第四实施例提供了可读存储介质,存储有计算机程序,计算机程序能够被该存储介质所在设备的处理器执行,以实现如上任意一项的基于自注意力机制的3D目标检测方法。
示例性地,本发明第三实施例和第四实施例中所述的计算机程序可以被分割成一个或多个模块,所述一个或者多个模块被存储在所述存储器中,并由所述处理器执行,以完成本发明。所述一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序在所述基于自注意力机制的3D目标检测设备中的执行过程。例如,本发明第二实施例中所述的装置。
所称处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器 (Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列 (Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述基于自注意力机制的3D目标检测方法的控制中心,利用各种接口和线路连接整个所述基于自注意力机制的3D目标检测方法的各个部分。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现基于自注意力机制的3D目标检测方法的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、文字转换功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、文字消息数据等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘、智能存储卡(Smart Media Card, SMC)、安全数字(Secure Digital, SD)卡、闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
其中,所述实现的模块如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一个计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
需说明的是,以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,本发明提供的装置实施例附图中,模块之间的连接关系表示它们之间具有通信连接,具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。

Claims (6)

1.基于自注意力机制的3D目标检测方法, 其特征在于,包括:
获取KITTI数据集中的待检测图像和输入点云数据,并调用训练好的TF-PointRCNN模型对所述输入点云数据进行检测;
调用所述TF-PointRCNN模型的骨干网络对所述输入点云数据进行提取分类处理,生成三维预测候选框,其中,所述骨干网络的主干网络采用多尺度PointNet++结构,具体为:
采用所述骨干网络对所述输入点云数据中的每个点进行特征提取处理,生成128维的特征向量;
采用多尺度PointNet++结构中的特征上采样层对所述128维的特征进行分割处理,生成多个前景点;
对每一所述前景点进行分类回归处理,生成三维预测候选框;
调用所述TF-PointRCNN模型的感兴趣区域细化层对所述三维预测候选框进行筛选提取处理,输出精细框,具体为:
运用Transformer自注意力机制构建感兴趣区域细化层;
将所述三维预测候选框依次经过三层全连接层进行坐标转换处理,将所述三维预测候选框的维度从128维降至8维;
根据先进行坐标转换和非极大值抑制对坐标转换后的所述三维预测候选框进行特征筛选处理,生成输入点和筛选特征;
调用所述感兴趣区域细化层的前馈网络对所述输入点进行预处理,并将预处理后的所述输入点输入Transformer层进行编码处理,生成点信息;
调用所述感兴趣区域细化层的MLP多层感知机对所述点信息和所述筛选特征进行合并特征处理,并将合并后的数据与未经过Transformer层处理的特征进行特征融合,生成精细框;
对所述待检测图像和所述精细框进行可视化操作,生成3D目标检测图像,其中,所述3D目标检测图像为被所述精细框框好的所述待检测图像。
2.根据权利要求1所述的基于自注意力机制的3D目标检测方法,其特征在于,在调采用多尺度PointNet++结构中的特征上采样层对所述128维的特征进行分割处理,生成多个前景点后,还包括:
对所述前景点进行第一损失处理,所述第一损失处理包括前背景分类损失和边界框回归损失;
其中,所述前背景分类损失的公式为,/>为前背景分类损失,t为前景点即正确分类点,/>为正确分类的概率;/>,/>为超参数调节因子,/>=0.25,/>=2;
其中,所述边界框回归损失使用了SmoothL1损失函数,公式为,/>为边界框回归损失,/>为边界框每一项的权重,/>为预测框,/>为标签真值框,/>为参数,/>=1.0/9.0。
3.根据权利要求2所述的基于自注意力机制的3D目标检测方法,其特征在于,在调用所述感兴趣区域细化层的前馈网络对所述输入点进行预处理,并将预处理后的所述输入点输入Transformer层进行编码处理,生成点信息之后,还包括:
对ROI候选框与真值框IOU进行第二损失处理,所述第二损失处理包括ROI候选框与真值框IOU大于0.6的分类损失和IOU大于0.55的回归损失;
其中,所述分类损失的公式为,/>表示预测前景ROI的类别置信度分数,N为批次的大小,/>为前景分类损失权重,/>为前景,/>为背景;
其中,所述回归损失包括对前景ROI的微调结果与真值框的计算损失,公式为,/>为边界框回归损失,/>为边界框每一项的权重,/>为预测框,/>为标签真值框,/>为参数,/>=1.0/9.0;
所述回归损失还包括前景ROI与真值框角点的正则化损失,公式为,/>是真值框和预测框的8个顶点差值的和,/>为真实方向的预测值,/>为正确方向的预测值,/>为相反方向的预测值。
4.基于自注意力机制的3D目标检测装置,其特征在于,包括:
点云获取单元,用于获取KITTI数据集中的待检测图像和输入点云数据,并调用训练好的TF-PointRCNN模型对所述输入点云数据进行检测;
候选框生成单元,用于调用所述TF-PointRCNN模型的骨干网络对所述输入点云数据进行提取分类处理,生成三维预测候选框,其中,所述骨干网络的主干网络采用多尺度PointNet++结构,具体为:
采用所述骨干网络对所述输入点云数据中的每个点进行特征提取处理,生成128维的特征向量;
采用多尺度PointNet++结构中的特征上采样层对所述128维的特征进行分割处理,生成多个前景点;
对每一所述前景点进行分类回归处理,生成三维预测候选框;
精细框生成单元,用于调用所述TF-PointRCNN模型的感兴趣区域细化层对所述三维预测候选框进行筛选提取处理,输出精细框,具体为:
运用Transformer自注意力机制构建感兴趣区域细化层;
将所述三维预测候选框依次经过三层全连接层进行坐标转换处理,将所述三维预测候选框的维度从128维降至8维;
根据先进行坐标转换和非极大值抑制对坐标转换后的所述三维预测候选框进行特征筛选处理,生成输入点和筛选特征;
调用所述感兴趣区域细化层的前馈网络对所述输入点进行预处理,并将预处理后的所述输入点输入Transformer层进行编码处理,生成点信息;
调用所述感兴趣区域细化层的MLP多层感知机对所述点信息和所述筛选特征进行合并特征处理,并将合并后的数据与未经过Transformer层处理的特征进行特征融合,生成精细框;
目标图像输出单元,用于对所述待检测图像和所述精细框进行可视化操作,生成3D目标检测图像,其中,所述3D目标检测图像为被所述精细框框好的所述待检测图像。
5.基于自注意力机制的3D目标检测设备,其特征在于,包括处理器、存储器以及存储在存储器中且被配置由处理器执行的计算机程序,处理器执行计算机程序时实现如权利要求1至3任意一项的基于自注意力机制的3D目标检测方法。
6.可读存储介质,其特征在于,存储有计算机程序,计算机程序能够被该存储介质所在设备的处理器执行,以实现如权利要求1至3任意一项的基于自注意力机制的3D目标检测方法。
CN202311316106.8A 2023-10-12 2023-10-12 基于自注意力机制的3d目标检测方法、装置、设备 Active CN117058472B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311316106.8A CN117058472B (zh) 2023-10-12 2023-10-12 基于自注意力机制的3d目标检测方法、装置、设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311316106.8A CN117058472B (zh) 2023-10-12 2023-10-12 基于自注意力机制的3d目标检测方法、装置、设备

Publications (2)

Publication Number Publication Date
CN117058472A true CN117058472A (zh) 2023-11-14
CN117058472B CN117058472B (zh) 2024-02-20

Family

ID=88653991

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311316106.8A Active CN117058472B (zh) 2023-10-12 2023-10-12 基于自注意力机制的3d目标检测方法、装置、设备

Country Status (1)

Country Link
CN (1) CN117058472B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114973422A (zh) * 2022-07-19 2022-08-30 南京应用数学中心 一种基于三维人体建模点云特征编码的步态识别方法
CN115082674A (zh) * 2022-07-12 2022-09-20 西安电子科技大学 基于注意力机制的多模态数据融合三维目标检测方法
WO2022222095A1 (zh) * 2021-04-22 2022-10-27 深圳元戎启行科技有限公司 轨迹预测方法、装置、计算机设备和存储介质
CN115311653A (zh) * 2022-08-12 2022-11-08 华北电力大学(保定) 一种3d目标检测方法、装置、终端和存储介质
CN115439653A (zh) * 2022-10-18 2022-12-06 国网山西省电力公司电力科学研究院 一种变电站场景点云语义分割方法
CN115512132A (zh) * 2022-10-12 2022-12-23 吉林大学 基于点云数据与多视图图像数据融合的3d目标检测方法
CN116310684A (zh) * 2023-03-17 2023-06-23 合肥工业大学 基于Transformer的多模态特征融合的三维目标检测方法
CN116403186A (zh) * 2023-03-31 2023-07-07 南京航空航天大学 基于FPN Swin Transformer与Pointnet++ 的自动驾驶三维目标检测方法
CN116612468A (zh) * 2023-04-21 2023-08-18 长安大学 基于多模态融合与深度注意力机制的三维目标检测方法
CN116740625A (zh) * 2023-03-07 2023-09-12 湘潭大学 一种面向机器人抓取的点云目标检测方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022222095A1 (zh) * 2021-04-22 2022-10-27 深圳元戎启行科技有限公司 轨迹预测方法、装置、计算机设备和存储介质
CN115082674A (zh) * 2022-07-12 2022-09-20 西安电子科技大学 基于注意力机制的多模态数据融合三维目标检测方法
CN114973422A (zh) * 2022-07-19 2022-08-30 南京应用数学中心 一种基于三维人体建模点云特征编码的步态识别方法
CN115311653A (zh) * 2022-08-12 2022-11-08 华北电力大学(保定) 一种3d目标检测方法、装置、终端和存储介质
CN115512132A (zh) * 2022-10-12 2022-12-23 吉林大学 基于点云数据与多视图图像数据融合的3d目标检测方法
CN115439653A (zh) * 2022-10-18 2022-12-06 国网山西省电力公司电力科学研究院 一种变电站场景点云语义分割方法
CN116740625A (zh) * 2023-03-07 2023-09-12 湘潭大学 一种面向机器人抓取的点云目标检测方法
CN116310684A (zh) * 2023-03-17 2023-06-23 合肥工业大学 基于Transformer的多模态特征融合的三维目标检测方法
CN116403186A (zh) * 2023-03-31 2023-07-07 南京航空航天大学 基于FPN Swin Transformer与Pointnet++ 的自动驾驶三维目标检测方法
CN116612468A (zh) * 2023-04-21 2023-08-18 长安大学 基于多模态融合与深度注意力机制的三维目标检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
HUAIJIN LIU ET AL.: "Extracting geometric and semantic point cloud features with gateway attention for accurate 3D object detection", 《ENGINEERING APPLICATIONS OF ARTIFICIAL INTELLIGENCE》, vol. 123 *
蔡黎明等: "动态卷积的3D点云目标检测算法", 《华 侨 大 学 学 报 (自 然 科 学 版 )》, vol. 44, no. 1 *

Also Published As

Publication number Publication date
CN117058472B (zh) 2024-02-20

Similar Documents

Publication Publication Date Title
CN107507126B (zh) 一种利用rgb图像还原3d场景的方法
CN117015806A (zh) 高分辨率神经渲染
CN111241989A (zh) 图像识别方法及装置、电子设备
Cho et al. Semantic segmentation with low light images by modified CycleGAN-based image enhancement
Novak Vehicle detection and pose estimation for autonomous driving
CN115131218A (zh) 图像处理方法、装置、计算机可读介质及电子设备
Zhan et al. Salient superpixel visual tracking with graph model and iterative segmentation
CN111353385A (zh) 一种基于掩膜对齐与注意力机制的行人再识别方法和装置
Wang et al. Instance segmentation of point cloud captured by RGB-D sensor based on deep learning
Shao et al. Efficient three-dimensional point cloud object detection based on improved Complex-YOLO
CN117058472B (zh) 基于自注意力机制的3d目标检测方法、装置、设备
Cai et al. Vehicle detection based on visual saliency and deep sparse convolution hierarchical model
CN111062473A (zh) 神经网络模型中的数据计算方法、图像处理方法及装置
Malah et al. 3d face reconstruction from single image with generative adversarial networks
Li et al. DAR-Net: dense attentional residual network for vehicle detection in aerial images
US11790633B2 (en) Image processing using coupled segmentation and edge learning
CN113344110B (zh) 一种基于超分辨率重建的模糊图像分类方法
CN116883770A (zh) 深度估计模型的训练方法、装置、电子设备及存储介质
CN114972016A (zh) 图像处理方法、装置、计算机设备、存储介质及程序产品
CN112001479B (zh) 基于深度学习模型的处理方法、系统及电子设备
CN110490235B (zh) 一种面向2d图像的车辆对象视点预测与三维模型恢复方法及装置
Emlek et al. P3SNet: Parallel pyramid pooling stereo network
CN114219831A (zh) 目标跟踪方法、装置、终端设备及计算机可读存储介质
CN116152334A (zh) 图像处理方法及相关设备
Wang et al. Saliency detection by multilevel deep pyramid model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant