CN113177555A - 基于跨层级跨尺度跨注意力机制的目标处理方法及装置 - Google Patents
基于跨层级跨尺度跨注意力机制的目标处理方法及装置 Download PDFInfo
- Publication number
- CN113177555A CN113177555A CN202110558725.2A CN202110558725A CN113177555A CN 113177555 A CN113177555 A CN 113177555A CN 202110558725 A CN202110558725 A CN 202110558725A CN 113177555 A CN113177555 A CN 113177555A
- Authority
- CN
- China
- Prior art keywords
- cross
- scale
- attention mechanism
- feature map
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000007246 mechanism Effects 0.000 title claims abstract description 67
- 238000003672 processing method Methods 0.000 title claims abstract description 12
- 238000012545 processing Methods 0.000 claims abstract description 72
- 238000000034 method Methods 0.000 claims abstract description 46
- 238000005070 sampling Methods 0.000 claims abstract description 39
- 239000011159 matrix material Substances 0.000 claims description 49
- 230000009466 transformation Effects 0.000 claims description 20
- 230000011218 segmentation Effects 0.000 claims description 17
- 238000010586 diagram Methods 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 7
- 238000004422 calculation algorithm Methods 0.000 claims description 6
- 238000000844 transformation Methods 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 abstract description 4
- 230000000007 visual effect Effects 0.000 abstract description 4
- 230000006870 function Effects 0.000 description 12
- 230000008569 process Effects 0.000 description 8
- 238000012549 training Methods 0.000 description 6
- 238000004590 computer program Methods 0.000 description 5
- 230000036961 partial effect Effects 0.000 description 5
- 238000012512 characterization method Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000001788 irregular Effects 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 102100033350 ATP-dependent translocase ABCB1 Human genes 0.000 description 1
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 101001017818 Homo sapiens ATP-dependent translocase ABCB1 Proteins 0.000 description 1
- RTAQQCXQSZGOHL-UHFFFAOYSA-N Titanium Chemical compound [Ti] RTAQQCXQSZGOHL-UHFFFAOYSA-N 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于跨层级跨尺度跨注意力机制的目标处理方法,包括:获取待处理目标的三维点云数据;以不同的采样频率对所述三维点云数据进行采样,得到不同尺度的子点云集;对每一个尺度的子点云集进行特征提取,得到每一个尺度下不同层级的层次特征;利用跨层级跨注意力机制的模型对所述每一个尺度下不同层级的层次特征进行特征处理,得到第一点特征图;利用跨尺度注意力机制的模型对所有尺度下的第一点特征图进行特征处理,得到第二点特征图;基于所述第二点特征图,对所述待处理目标进行分类或分割,得到分类目标或分割目标。本发明直接将原始三维点云作为方法输入,解决了基于视角和体素方法信息损失和计算代价过高的问题。
Description
技术领域
本发明涉及人工智能领域,具体涉及一种基于跨层级跨尺度跨注意力机制的目标处理方法及装置。
背景技术
随着三维获取技术的快速发展,三维传感器和采集设备日益变得更加可用和廉价,常见的三维扫描仪包括:Kinect,RealSense等。相对于二维彩色图像而言,有这些设备获得的三维点云数据能够提供更加丰富的几何、形状和尺度信息。这使得三维点云成为一种刻画现实世界中任意形状物体的首选表征方法,其在诸如机器人学、自动驾驶和虚拟现实/增强现实等应用场景中扮演着越来越重要的角色。因此,如何有效地分析和理解三维点云数据成为了上述各种应用亟需解决的基础问题。
最近,深度学习技术以强大的离散卷积作为基本组成部分,能够在规整网格进行令人惊叹的表示学习,彻底改变了二维计算机视觉。这些出色的性能激励着越来越多研究人员开始关注深度学习技术在三维点云数据上的应用。然而,由于三维点云被认为是一种具有不规整结构的无序点集合,而卷积神经网络仅仅适合具有规整结构的数据,因此直接将针对图像处理的深度学习技术迁移到基于三维点云的任务是不合理的。
为了解决这个问题,早期的工作主要致力于讲不规整的三维点云数据转换成一种规整的中间网格表示。其中,基于视图的方法最开始的目标是通过将三维点云投影成具有不同视角的二维图像集合的方式将三维问题转换成二维问题。然后采用成熟的性能优越的二维卷积神经网络结构进行特征提取。最后,这些特征被聚合到三维空间。尽管这些方法在分类任务中取得了显著的性能,但是由于在投影过程中三维点云点之间固有的几何关系损失,导致这些方法无法进行分割人物。另一方面,视角数据的选择直接影响着最终任务的性能,因此,选择合适的视角数目是一个具有挑战性的问题。
作为另外一种选择,基于体素的方法尝试将离散的三维点投影至一个结构化的三维网格结构,比如说占据体素网格,然后可以采用三维卷积神经网络进行处理。然后内存消耗和计算需求的立方级的增长极大限制了其在高分辨率体素任务中的应用,同样也限制了三维点云体素表示的表达能力和效率。为了缓解这个问题,基于八叉树和kd树的方法被提出来用于性能优化。比如说,OctNet方法将分辨率提升到2563的级别。然后这些方法仍然遭受量化误差和细粒度信息的损失。
PointNet方法的出现带来了深度学习在三维点云处理的一种新趋势。这个网络直接以点的位置信息作为输入,采用共享的多层感知机独立地学习每个点的特征,最后通过一个通道最大池化操作讲这些特征聚合成为一个全局表示。该方法的一个主要的缺点是其无法捕获局部信息。PointNet++通过层次化结构考虑三维点云的局部信息来改进PointNet。但是,这些点的方法本质上将点独立地处理,而没有抓住它们长期的关联关系。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供一种基于跨层级跨尺度跨注意力机制的目标处理方法及装置,用于解决现有技术的缺陷。
为实现上述目的及其他相关目的,本发明提供一种基于跨层级跨尺度跨注意力机制的目标处理方法,包括:
获取待处理目标的三维点云数据;
以不同的采样频率对所述三维点云数据进行采样,得到不同尺度的子点云集;
对每一个尺度的子点云集进行特征提取,得到每一个尺度下不同层级的层次特征;
利用跨层级跨注意力机制的模型对所述每一个尺度下不同层级的层次特征进行特征处理,得到第一点特征图;
利用跨尺度注意力机制的模型对所有尺度下的第一点特征图进行特征处理,得到第二点特征图;
基于所述第二点特征图,对所述待处理目标进行分类或分割,得到分类目标或分割目标。
可选地,采用最远点采样算法对所述三维点云数据进行下采样,得到不同尺度的子点云集。
可选地,采用特征金字塔网络对所述子点云集进行特征提取。
可选地,所述跨层级跨注意力机制的模型表示为:
其中,分别表示不同层次的层次特征对应的查询特征矩阵、键特征矩阵、值特征矩阵,表示对应的可学习的权重参数矩阵,表示m层次对应的层次特征,φ(·)、ψ(·)、β(·)表示线性变换;C'表示点云的通道数;m=low,mid,high。
可选地,对所有尺度下的第一点特征图进行特征处理,包括:
分别对不同尺度下的所述第一点特征图进行上采样,得到不同尺度下的第一处理结果;
将所述不同尺度下的第一处理结果输入到全连接层中,得到不同尺度的第二处理结果;
利用跨尺度注意力机制的模型对所述不同尺度的第二处理结果进行特征处理,得到第二点特征图。
可选地,所述跨尺度注意力机制的模型表示为:
其中,代表对第i个尺度的第一点特征图进行上采样后得到的点特征图,i=1,2,3;UP(·)表示上采样操作;MLP(·)表示共享多层感知机;表示对特征采用K最近邻插值方法上采样到与待处理目标的三维点云数据P具有相同大小的分辨率;表示第i个尺度的特征图的各点之间的关系;是三个全连接层的权重参数;σ表示正则化方程;Wi分别表示第i个尺度的线性变换的系数,i=1,2,3;D′设置为D/4,D表示输入点特征图的维度,sqrt()表示平方根。
为实现上述目的及其他相关目的,本发明提供一种基于跨层级跨尺度跨注意力机制的目标处理装置,包括:
数据获取模块,用于获取待处理目标的三维点云数据;
采样模块,用于以不同的采样频率对所述三维点云数据进行采样,得到不同尺度的子点云集;
特征提取模块,用于对每一个尺度的子点云集进行特征提取,得到每一个尺度下不同层级的层次特征;
第一特征处理模块,用于利用跨层级跨注意力机制的模型对所述每一个尺度下不同层级的层次特征进行特征处理,得到第一点特征图;
第二特征处理模块,用于利用跨尺度注意力机制的模型对所有尺度下的第一点特征图进行特征处理,得到第二点特征图;
分类/分割模块,用于基于所述第二点特征图,对所述待处理目标进行分类或分割,得到分类目标或分割目标。
可选地,所述跨层级跨注意力机制的模型表示为:
其中,分别表示不同层次的层次特征对应的查询特征矩阵、键特征矩阵、值特征矩阵,表示对应的可学习的权重参数矩阵,表示m层次对应的层次特征,φ(·)、ψ(·)、β(·)表示线性变换;C'表示点云的通道数;m=low,mid,high。
可选地,对所有尺度下的第一点特征图进行特征处理,包括:
分别对不同尺度下的所述第一点特征图进行上采样,得到不同尺度下的第一处理结果;
将所述不同尺度下的第一处理结果输入到全连接层中,得到不同尺度的第二处理结果;
利用跨尺度注意力机制的模型对所述不同尺度的第二处理结果进行特征处理,得到第二点特征图。
可选地,所述跨尺度注意力机制的模型表示为:
其中,代表对第i个尺度的第一点特征图进行上采样后得到的点特征图,i=1,2,3;UP(·)表示上采样操作;MLP(·)表示共享多层感知机;表示对特征采用K最近邻插值方法上采样到与待处理目标的三维点云数据P具有相同大小的分辨率;表示第i个尺度的特征图的各点之间的关系;是三个全连接层的权重参数;σ表示正则化方程;Wi分别表示第i个尺度的线性变换的系数,i=1,2,3;D′设置为D/4,D表示输入点特征图的维度,sqrt()表示平方根。
如上所述,本发明的一种基于跨层级跨尺度跨注意力机制的目标处理方法及装置,具有以下有益效果:
本发明直接将原始三维点云作为方法输入,解决了基于视角和体素方法信息损失和计算代价过高的问题。采用三维点特征金字塔结构层次系性地提取具有不同感受野的点特征,这样包含从局部到全局的信息,克服了PointNet方法无法获取局部信息的缺陷。同时,本方案采用了跨层级跨注意力机制和跨尺度跨注意力机制集成了层内、层间、尺度内、尺度间特征之间的长范围依赖关系,捕获上下文的几何和语义信息,提高特征表示的辨别能力。
附图说明
图1为本发明一实施例一种基于跨层级跨尺度跨注意力机制的目标处理方法的流程图;
图2为本发明一实施例跨层级跨尺度跨注意力机制的三维点云表征网络的网络模型的示意图;
图3为本发明一实施例跨层级跨注意力机制的模型的示意图;
图4为本发明一实施例一种基于跨层级跨尺度跨注意力机制的目标处理装置的结构示意图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
如图1所示,本申请实施例提供一种基于跨层级跨尺度跨注意力机制的目标处理方法,包括:
S11获取待处理目标的三维点云数据;
S12以不同的采样频率对所述三维点云数据进行采样,得到不同尺度的子点云集;
S13对每一个尺度的子点云集进行特征提取,得到每一个尺度下不同层级的层次特征;
S14利用跨层级跨注意力机制的模型对所述每一个尺度下不同层级的层次特征进行特征处理,得到第一点特征图;
S15利用跨尺度注意力机制的模型对所有尺度下的第一点特征图进行特征处理,得到第二点特征图;
S16基于所述第二点特征图,对所述待处理目标进行分类或分割,得到分类目标或分割目标。
应该理解,上述各个实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
图2示出了跨层级跨尺度跨注意力机制的三维点云表征网络的网络模型,利用网络该模型可以对待处理的目标进行分类或分割。
如图2所示,该网络模型的目的是学习一个用于各种基于三维点云任务的投影函数:f:P→RF,这些任务包括三维目标分类和三维点云分割。该网络模型直接将具有N个点的三维点云P={pi∈R3+a,i=1,2,3,....,N}作为输入,其中3+a表示点的三维坐标(xi,yi,zi)和附加的特征,例如颜色、曲面法线等。在对目标进行处理的过程中,首先,最远点采样算法(FPS,FarthestPointSampling)最开始被用于获得三个不同分辨率的子点云集(即不同尺度的子点云集),每个子点云集都将被输入到特征金字塔网络的相应路径中来构造相应的层次特征(低层次特征、中间层次特征、高层次特征)。然后,通过构建一个跨层级跨注意力的模型同时聚合几何和语义信息来探索层级内和层级间的点特征关系。最后,定义一个跨尺度跨注意力模型来充分研究同一尺度内和不同尺度间的点之间的关系,以增强特征表示。
从经验上来说,感受野的大小直接与上下文信息学习有关(更大的感受野通常意味着更广泛的上下文描述),这对三维点云处理的性能有着重大的贡献。因此,为了提取层次性特征来解决具有不同尺度的物体,本实施例采用一个点特征金字塔网络。这个网络由三个独立的分支组成(从上到下分辨率是逐渐减低的,而随感受野是逐渐增大的)。特别地,如图2所示,首先在对原始输入三维点云数据执行最远点采样算法来获取三个具有不同分辨率的点的子点云集,分别表示为:
因为最远点采样算法可以生成有限的中心确保能够更好地覆盖整个三维点云并维持原来的形状。然后,在给定的半径下,通过球查询策略确定每个中心点的K个领域点,将它们聚合形成一个局部区域用于获得局部特征。最后,点特征金字塔中的三个分支应用自己对应的投影函数到三个降采样处理后的子点云上提取三个潜在的层次特征表示。
在本实施例中,每条分支是通过堆叠多个共享的多层感知机模型来定义的。
一般来说,同一层级的层次特征和不同层级的层次特征的点之间的相关性可以提供语义丰富和几何丰富的信息。为了更好地构建层级内和层级间相关性模型和充分利用不用层级的层次特征,本实施例形式化了一个用于学习更全面特征表示的跨层级跨注意力机制的模型,总体构架如图3所示。
对于每种尺度(i=1,2,3),该模型采用从对应的共享多层感知机层分别提取了低层次、中间层次和高层次的层次特征,表示为这里,为了简化描述,以高层次的特征图作为例子。首先,对点云特征进行线性变换,得到对应的查询K、键Q和值矩阵V:
经过上述步骤,共得到三个点特征图。
为了进一步探索不同层级层次特征的关联性,以聚合更具区分能力的点的特征,本模型引入了层级间相互作用的跨注意力机制,可以表述为:
其中,
在点特征金字塔网络中,可以看到顶部的分支有着最高的分辨率但感受野最小,而最下面的分支则具有最小的分辨率和最大的感受野。从经验上来说,不同尺度的点特征通常包含不同的语义信息或者上下文信息。因此,为了充分利用同一尺度的长期自相关性,并聚合不同尺度的相关性学习,一个跨尺度跨注意力机制的模型被提出来用于增强表征的辨别能力。
在一实施例中,对所有尺度下的第一点特征图进行特征处理,包括:
分别对不同尺度下的所述第一点特征图进行上采样,得到不同尺度下的第一处理结果;
将所述不同尺度下的第一处理结果输入到全连接层中,得到不同尺度的第二处理结果;
利用跨尺度注意力机制的模型对所述不同尺度的第二处理结果进行特征处理,得到第二点特征图。
特别地,为了方便执行逐点预测任务,例如分割,首先应该通过上采样层将来自第i=1,2,3个尺度的跨层级跨注意力机制的点特征图传播到原始输入点云的相同分辨率,上采样层主要由K最近邻插值和共享多层感知机构成。
基于自注意力机制的基本思想,第i个尺度的各点之间的关系可以被构建为:
和跨层级跨注意力模型类似,在这里也考虑了将跨尺度注意力模型来融合多尺度的信息。跨尺度跨注意力机制模块最终输出语义更加丰富的点特征表示。这个跨跨尺度跨注意力模型被形式化为:
Wi分别表示第i个尺度的线性变换的系数,i=1,2,3。
从图2中可以很清楚地看到,跨尺度注意力机制的模型、跨层级跨注意力模型、特征金字塔网络将连同全连接层构成本发明的跨层级跨尺度跨注意力机制的三维点云表征网络的网络模型,它简单且容易实现。
在一实施例中,对所述待处理目标进行处理,包括三维目标分类或/和三维点云分割。三维目标分类和三维点云分割网络的详细配置如表1所示。在训练的过程中,交叉熵损失函数以端到端的方式来监督模型的学习过程。
其中,G和P分别代表Ground Truth和预测,N指的是输入点的数量,C表示类的数量,i表示第i个类别,n代表第n个点。
表1分类和分割网络配置
NN(r,K)表示球查询的半径和聚合局部信息的点数。MLP(Cin,Cout)表示多层感知机,输入Cin个特征图,输出Cout个特征图,CLCA(Cin)和CLCS(Cin)表示跨层级跨注意力机制和跨尺度跨注意力机制的操作来构建交互,FC(Cin,Cout)表示全连接层,C是对应数据集的类别数目。CLCA:(Cross-Level Cross-Attention,跨层级跨注意力机制),CSCA:(Cross-ScaleCross-Attention,跨尺度跨注意力机制),KNN:(Knearest neighbors,K最近邻)。
通过在多个具有挑战性的基准数据集上进行了大量实验来评估的CLCSCANet体系结构,包括用于分类任务的ModelNet、用于部分分割的ShapeNetPart。所有的实验都运用Pytorch的框架来实现,并且都在在NVIDIA RTX TITAN 24G GPU显卡上运行。采用Adam优化器和步进学习速率衰减对网络进行端到端的训练。
ModelNet40分类基准包括40个不同对象类别的12,311个网格化CAD模型,其中,随机选择9843个模型用于训练,2468个样本用于评估。按照PointNet++策略,从每个对象实例中均匀抽取1024个不具有法线信息的点。同时,为了公平比较,将采用包括随机点丢弃、随机转换和随机缩放等数据预处理操作来增强输入。在训练过程中,初始学习率设为0.001,并且每训练20次学习率就下降0.7。该分类网络训练以20个样本作为一批数据,并对所有数据训练150次。
表2报告了实验设置并且定量地与几个主流的方法进行比较。表中很明确地陈述了:
(1)与PointNet、OctreeGCNN和SPH3D-GCN等仅以点云作为输入的方法相比,CLCSCANet达到了具有竞争性的分类精度92.2%。
(2)CLCSCANet模型比以5000个点和法线作为输入的PointNet++模型稍微好一点,有0.3%的改进,但比不上同样使用法线作为附加输入的SFCNN模型,低了0.1%
(3)同时,CLCSCANet模型也优于基于体素的模型,例如OctNet和基于多视图的模型。实验结果展示了CLCSCANet模型用于三维物体分类的有效性。
表2在ModelNet40数据集上的三维目标分类结果
对于三维点云部分分割任务,ShapeNetPart数据集被用来验证CLCSCANet模型的有效性。这个数据集包括了16个不同类别的16811个三维CAD形状,一共50个部分。本方法使用官方的14007模型进行训练,2874个实例进行测试,其中每个图形都具有2到6个标签,每个点都与其中的一个部分标签相关联。根据前面的工作,将采用在所有实例上的mIoU,并在每个类别下的所有形状的分类IoU来评估方法的性能。为了公平比较,每个形状模型中将取样2048个点。最初的学习率为0.0005,每经过20次训练学习率就减少一半。用8个样本作为一批数据,网络训练120次,动量为0.9。
CLCSCANet模型(即本申请的跨层级跨尺度跨注意力网络)的三维点云部分分割结果如表3所示,其中与几种目前比较主流的方法进行了比较,例如SO-Net、DGCNN和3D-GCN等。从实验结果来看,CLCSCANet模型取得了最高的mIoU(mean of Intersection overUnion),即85.3%,在16个类别中有4个表现较好。图3可视化了CLCSCANet的部分分割结果与ground truth之间的定性比较。定量和可视化结果都证明了CLCSCANet在点云分割任务中是成功的。
表3在ShapeNet Part数据集上的部分分割结果
本发明直接将原始三维点云作为方法输入,解决了基于视角和体素方法信息损失和计算代价过高的问题。采用三维点特征金字塔结构层次系性地提取具有不同感受野的点特征,这样包含从局部到全局的信息,克服了PointNet方法无法获取局部信息的缺陷。同时,本方案采用了跨层级跨注意力机制和跨尺度跨注意力机制集成了层内、层间、尺度内、尺度间特征之间的长范围依赖关系,捕获上下文的几何和语义信息,提高特征表示的辨别能力。
如图4所示,本申请实施例提供一种基于跨层级跨尺度跨注意力机制的目标处理装置,包括:
数据获取模块41,用于获取待处理目标的三维点云数据;
采样模块42,用于以不同的采样频率对所述三维点云数据进行采样,得到不同尺度的子点云集;
特征提取模块43,用于对每一个尺度的子点云集进行特征提取,得到每一个尺度下不同层级的层次特征;
第一特征处理模块44,用于利用跨层级跨注意力机制的模型对所述每一个尺度下不同层级的层次特征进行特征处理,得到第一点特征图;
第二特征处理模块45,用于利用跨尺度注意力机制的模型对所有尺度下的第一点特征图进行特征处理,得到第二点特征图;
分类/分割模块46,用于基于所述第二点特征图,对所述待处理目标进行分类或分割,得到分类目标或分割目标。
在一实施例中,所述跨层级跨注意力机制的模型表示为:
其中,分别表示不同层次的层次特征对应的查询特征矩阵、键特征矩阵、值特征矩阵,表示对应的可学习的权重参数矩阵,表示m层次对应的层次特征,φ(·)、ψ(·)、β(·)表示线性变换;C'表示点云的通道数;m=low,mid,high。
在一实施例中,对所有尺度下的第一点特征图进行特征处理,包括:
分别对不同尺度下的所述第一点特征图进行上采样,得到不同尺度下的第一处理结果;
将所述不同尺度下的第一处理结果输入到全连接层中,得到不同尺度的第二处理结果;
利用跨尺度注意力机制的模型对所述不同尺度的第二处理结果进行特征处理,得到第二点特征图。
在一实施例中,所述跨尺度注意力机制的模型表示为:
其中,代表对第i个尺度的第一点特征图进行上采样后得到的点特征图,=1,2,3;UP(·)表示上采样操作;MLP(·)表示共享多层感知机;表示对特征采用K最近邻插值方法上采样到与待处理目标的三维点云数据P具有相同大小的分辨率;表示第i个尺度的特征图的各点之间的关系;是三个全连接层的权重参数;σ表示正则化方程;D′设置为D/4,D表示输入点特征图的维度,sqrt()表示平方根;Wi分别表示第i个尺度的线性变换的系数,i=1,2,3。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的实施例中,应该理解到,所揭露的装置/终端设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/终端设备实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器((RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。
Claims (10)
1.一种基于跨层级跨尺度跨注意力机制的目标处理方法,其特征在于,包括:
获取待处理目标的三维点云数据;
以不同的采样频率对所述三维点云数据进行采样,得到不同尺度的子点云集;
对每一个尺度的子点云集进行特征提取,得到每一个尺度下不同层级的层次特征;
利用跨层级跨注意力机制的模型对所述每一个尺度下不同层级的层次特征进行特征处理,得到第一点特征图;
利用跨尺度注意力机制的模型对所有尺度下的第一点特征图进行特征处理,得到第二点特征图;
基于所述第二点特征图,对所述待处理目标进行分类或分割,得到分类目标或分割目标。
2.根据权利要求1所述的基于跨层级跨尺度跨注意力机制的目标处理方法,其特征在于,采用最远点采样算法对所述三维点云数据进行下采样,得到不同尺度的子点云集。
3.根据权利要求1所述的基于跨层级跨尺度跨注意力机制的目标处理方法,其特征在于,采用特征金字塔网络对所述子点云集进行特征提取。
5.根据权利要求4所述的基于跨层级跨尺度跨注意力机制的目标处理方法,其特征在于,对所有尺度下的第一点特征图进行特征处理,包括:
分别对不同尺度下的所述第一点特征图进行上采样,得到不同尺度下的第一处理结果;
将所述不同尺度下的第一处理结果输入到全连接层中,得到不同尺度的第二处理结果;
利用跨尺度注意力机制的模型对所述不同尺度的第二处理结果进行特征处理,得到第二点特征图。
7.一种基于跨层级跨尺度跨注意力机制的目标处理装置,其特征在于,包括:
数据获取模块,用于获取待处理目标的三维点云数据;
采样模块,用于以不同的采样频率对所述三维点云数据进行采样,得到不同尺度的子点云集;
特征提取模块,用于对每一个尺度的子点云集进行特征提取,得到每一个尺度下不同层级的层次特征;
第一特征处理模块,用于利用跨层级跨注意力机制的模型对所述每一个尺度下不同层级的层次特征进行特征处理,得到第一点特征图;
第二特征处理模块,用于利用跨尺度注意力机制的模型对所有尺度下的第一点特征图进行特征处理,得到第二点特征图;
分类/分割模块,用于基于所述第二点特征图,对所述待处理目标进行分类或分割,得到分类目标或分割目标。
9.根据权利要求8所述的基于跨层级跨尺度跨注意力机制的目标处理装置,其特征在于,对所有尺度下的第一点特征图进行特征处理,包括:
分别对不同尺度下的所述第一点特征图进行上采样,得到不同尺度下的第一处理结果;
将所述不同尺度下的第一处理结果输入到全连接层中,得到不同尺度的第二处理结果;
利用跨尺度注意力机制的模型对所述不同尺度的第二处理结果进行特征处理,得到第二点特征图。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110558725.2A CN113177555B (zh) | 2021-05-21 | 2021-05-21 | 基于跨层级跨尺度跨注意力机制的目标处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110558725.2A CN113177555B (zh) | 2021-05-21 | 2021-05-21 | 基于跨层级跨尺度跨注意力机制的目标处理方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113177555A true CN113177555A (zh) | 2021-07-27 |
CN113177555B CN113177555B (zh) | 2022-11-04 |
Family
ID=76929618
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110558725.2A Expired - Fee Related CN113177555B (zh) | 2021-05-21 | 2021-05-21 | 基于跨层级跨尺度跨注意力机制的目标处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113177555B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113569979A (zh) * | 2021-08-06 | 2021-10-29 | 中国科学院宁波材料技术与工程研究所 | 一种基于注意力机制的三维物体点云分类方法 |
CN113920271A (zh) * | 2021-09-07 | 2022-01-11 | 北京理工大学 | 三维点云补全方法、装置及设备 |
CN114091628A (zh) * | 2022-01-20 | 2022-02-25 | 山东大学 | 基于双分支网络的三维点云上采样方法及系统 |
CN114529757A (zh) * | 2022-01-21 | 2022-05-24 | 四川大学 | 一种跨模态单样本三维点云分割方法 |
CN114565772A (zh) * | 2022-02-14 | 2022-05-31 | 清华大学 | 集合特征提取方法、装置、电子设备及存储介质 |
CN115375910A (zh) * | 2022-09-14 | 2022-11-22 | 清华大学 | 一种基于注意力机制的点云特征提取方法及装置 |
CN117475107A (zh) * | 2023-08-29 | 2024-01-30 | 北京航空航天大学 | 一种基于深度学习的关系性增强点云补全方法 |
CN118552907A (zh) * | 2024-07-26 | 2024-08-27 | 浙江华是科技股份有限公司 | 一种基于优选下采样尺度的周界入侵人员检测方法及系统 |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016119117A1 (en) * | 2015-01-27 | 2016-08-04 | Nokia Technologies Oy | Localization and mapping method |
WO2016201671A1 (zh) * | 2015-06-18 | 2016-12-22 | 北京大学深圳研究生院 | 一种三维点云的局部特征提取方法及装置 |
CN110020681A (zh) * | 2019-03-27 | 2019-07-16 | 南开大学 | 基于空间注意力机制的点云特征提取方法 |
CN110245709A (zh) * | 2019-06-18 | 2019-09-17 | 西安电子科技大学 | 基于深度学习和自注意力的3d点云数据语义分割方法 |
CN110378349A (zh) * | 2019-07-16 | 2019-10-25 | 北京航空航天大学青岛研究院 | Android移动端室内场景三维重建及语义分割方法 |
CN111046781A (zh) * | 2019-12-09 | 2020-04-21 | 华中科技大学 | 一种基于三元注意力机制的鲁棒三维目标检测方法 |
CN111242208A (zh) * | 2020-01-08 | 2020-06-05 | 深圳大学 | 一种点云分类方法、分割方法及相关设备 |
CN111414875A (zh) * | 2020-03-26 | 2020-07-14 | 电子科技大学 | 基于深度回归森林的三维点云头部姿态估计系统 |
CN111489358A (zh) * | 2020-03-18 | 2020-08-04 | 华中科技大学 | 一种基于深度学习的三维点云语义分割方法 |
CN112037228A (zh) * | 2020-11-05 | 2020-12-04 | 中南大学 | 一种基于双倍注意力的激光雷达点云目标分割方法 |
CN112052860A (zh) * | 2020-09-11 | 2020-12-08 | 中国人民解放军国防科技大学 | 一种三维目标检测方法及系统 |
CN112085123A (zh) * | 2020-09-25 | 2020-12-15 | 北方民族大学 | 基于显著点采样的点云数据分类和分割方法 |
CN112215101A (zh) * | 2020-09-27 | 2021-01-12 | 武汉科技大学 | 一种基于注意力机制的三维目标识别方法及系统 |
CN112819833A (zh) * | 2021-02-05 | 2021-05-18 | 四川大学 | 一种大场景点云语义分割方法 |
CN112818999A (zh) * | 2021-02-10 | 2021-05-18 | 桂林电子科技大学 | 一种基于卷积神经网络的复杂场景3d点云语义分割方法 |
-
2021
- 2021-05-21 CN CN202110558725.2A patent/CN113177555B/zh not_active Expired - Fee Related
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016119117A1 (en) * | 2015-01-27 | 2016-08-04 | Nokia Technologies Oy | Localization and mapping method |
WO2016201671A1 (zh) * | 2015-06-18 | 2016-12-22 | 北京大学深圳研究生院 | 一种三维点云的局部特征提取方法及装置 |
CN110020681A (zh) * | 2019-03-27 | 2019-07-16 | 南开大学 | 基于空间注意力机制的点云特征提取方法 |
CN110245709A (zh) * | 2019-06-18 | 2019-09-17 | 西安电子科技大学 | 基于深度学习和自注意力的3d点云数据语义分割方法 |
CN110378349A (zh) * | 2019-07-16 | 2019-10-25 | 北京航空航天大学青岛研究院 | Android移动端室内场景三维重建及语义分割方法 |
CN111046781A (zh) * | 2019-12-09 | 2020-04-21 | 华中科技大学 | 一种基于三元注意力机制的鲁棒三维目标检测方法 |
CN111242208A (zh) * | 2020-01-08 | 2020-06-05 | 深圳大学 | 一种点云分类方法、分割方法及相关设备 |
CN111489358A (zh) * | 2020-03-18 | 2020-08-04 | 华中科技大学 | 一种基于深度学习的三维点云语义分割方法 |
CN111414875A (zh) * | 2020-03-26 | 2020-07-14 | 电子科技大学 | 基于深度回归森林的三维点云头部姿态估计系统 |
CN112052860A (zh) * | 2020-09-11 | 2020-12-08 | 中国人民解放军国防科技大学 | 一种三维目标检测方法及系统 |
CN112085123A (zh) * | 2020-09-25 | 2020-12-15 | 北方民族大学 | 基于显著点采样的点云数据分类和分割方法 |
CN112215101A (zh) * | 2020-09-27 | 2021-01-12 | 武汉科技大学 | 一种基于注意力机制的三维目标识别方法及系统 |
CN112037228A (zh) * | 2020-11-05 | 2020-12-04 | 中南大学 | 一种基于双倍注意力的激光雷达点云目标分割方法 |
CN112819833A (zh) * | 2021-02-05 | 2021-05-18 | 四川大学 | 一种大场景点云语义分割方法 |
CN112818999A (zh) * | 2021-02-10 | 2021-05-18 | 桂林电子科技大学 | 一种基于卷积神经网络的复杂场景3d点云语义分割方法 |
Non-Patent Citations (2)
Title |
---|
HAN XIAN FENG等: "A review of algorithms for filtering the 3D point cloud", 《SIGNAL PROCESSING: IMAGE COMMUNICATION》 * |
周恒: "基于点云数据的三维场景语义分割算法", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑(月刊)》 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113569979A (zh) * | 2021-08-06 | 2021-10-29 | 中国科学院宁波材料技术与工程研究所 | 一种基于注意力机制的三维物体点云分类方法 |
CN113920271A (zh) * | 2021-09-07 | 2022-01-11 | 北京理工大学 | 三维点云补全方法、装置及设备 |
CN114091628A (zh) * | 2022-01-20 | 2022-02-25 | 山东大学 | 基于双分支网络的三维点云上采样方法及系统 |
CN114091628B (zh) * | 2022-01-20 | 2022-04-22 | 山东大学 | 基于双分支网络的三维点云上采样方法及系统 |
CN114529757A (zh) * | 2022-01-21 | 2022-05-24 | 四川大学 | 一种跨模态单样本三维点云分割方法 |
CN114529757B (zh) * | 2022-01-21 | 2023-04-18 | 四川大学 | 一种跨模态单样本三维点云分割方法 |
CN114565772A (zh) * | 2022-02-14 | 2022-05-31 | 清华大学 | 集合特征提取方法、装置、电子设备及存储介质 |
CN115375910A (zh) * | 2022-09-14 | 2022-11-22 | 清华大学 | 一种基于注意力机制的点云特征提取方法及装置 |
CN117475107A (zh) * | 2023-08-29 | 2024-01-30 | 北京航空航天大学 | 一种基于深度学习的关系性增强点云补全方法 |
CN118552907A (zh) * | 2024-07-26 | 2024-08-27 | 浙江华是科技股份有限公司 | 一种基于优选下采样尺度的周界入侵人员检测方法及系统 |
CN118552907B (zh) * | 2024-07-26 | 2024-09-24 | 浙江华是科技股份有限公司 | 一种基于优选下采样尺度的周界入侵人员检测方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113177555B (zh) | 2022-11-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113177555B (zh) | 基于跨层级跨尺度跨注意力机制的目标处理方法及装置 | |
Zhang et al. | A review of deep learning-based semantic segmentation for point cloud | |
CN111242208B (zh) | 一种点云分类方法、分割方法及相关设备 | |
US10922793B2 (en) | Guided hallucination for missing image content using a neural network | |
CN113159232A (zh) | 一种三维目标分类、分割方法 | |
Desai et al. | Hybrid approach for content-based image retrieval using VGG16 layered architecture and SVM: an application of deep learning | |
CN113449736B (zh) | 一种基于深度学习的摄影测量点云语义分割方法 | |
CN111695494A (zh) | 一种基于多视角卷积池化的三维点云数据分类方法 | |
AU2018258094A1 (en) | Octree-based convolutional neural network | |
CN113345106A (zh) | 一种基于多尺度多层级转换器的三维点云分析方法及系统 | |
CN110781894A (zh) | 点云语义分割方法、装置及电子设备 | |
Muzahid et al. | 3D object classification using a volumetric deep neural network: An efficient octree guided auxiliary learning approach | |
Ahmad et al. | 3D capsule networks for object classification from 3D model data | |
CN114792331A (zh) | 应用于半监督环境中以在图像帧序列中执行实例跟踪的机器学习框架 | |
CN118135220B (zh) | 一种基于体素和点集融合的点云分割方法、装置及设备 | |
CN116385902A (zh) | 一种遥感大数据处理方法、系统及云平台 | |
CN118628736A (zh) | 基于聚类思想的弱监督室内点云语义分割方法、装置及介质 | |
Hazer et al. | Deep learning based point cloud processing techniques | |
CN114299339A (zh) | 一种基于区域相关性建模的三维点云模型分类方法及系统 | |
Singh et al. | Deep learning-based semantic segmentation of three-dimensional point cloud: a comprehensive review | |
Fei et al. | A GNN Architecture With Local and Global-Attention Feature for Image Classification | |
CN114445280B (zh) | 一种基于注意力机制的点云下采样方法 | |
Zhang et al. | Feature interpolation convolution for point cloud analysis | |
Ye et al. | A novel 3D shape classification algorithm: point-to-vector capsule network | |
Gangineni et al. | Real-Time Object Recognition from Streaming LiDAR Point Cloud Data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20221104 |