CN113870422A - 一种基于金字塔Transformer的点云重建方法、装置、设备及介质 - Google Patents

一种基于金字塔Transformer的点云重建方法、装置、设备及介质 Download PDF

Info

Publication number
CN113870422A
CN113870422A CN202111444030.8A CN202111444030A CN113870422A CN 113870422 A CN113870422 A CN 113870422A CN 202111444030 A CN202111444030 A CN 202111444030A CN 113870422 A CN113870422 A CN 113870422A
Authority
CN
China
Prior art keywords
layer
channel
point
view
point cloud
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111444030.8A
Other languages
English (en)
Other versions
CN113870422B (zh
Inventor
刘琼
张军
杨铀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN202111444030.8A priority Critical patent/CN113870422B/zh
Publication of CN113870422A publication Critical patent/CN113870422A/zh
Application granted granted Critical
Publication of CN113870422B publication Critical patent/CN113870422B/zh
Priority to US17/739,166 priority patent/US11488283B1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4046Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/001Model-based coding, e.g. wire frame
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/002Image coding using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20016Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于金字塔Transformer的点云重建方法、装置、设备及介质,属于计算机视觉领域。方法包括:获得每张视图对应的点特征数据后,将点特征数据输入双通道金字塔网络,每一层输入的点特征均经过采样、图神经网络以及Transformer三个模块;点特征数据经过第一通道时,将每层注意力机制更新后的输出输入下一层,经过第二通道时,将每层注意力机制更新后的输出与和下一层处于同一层的第一通道对应层的注意力机制更新后的输出进行拼接后输入下一层;将第二通道最底层的注意力机制更新后的输出转换成点云坐标,得到每张视图的点云结果,并对每张视图的点云结果取交集,以表征点云重建后的目标对象。如此,本发明对于物体的三维重建精度更高。

Description

一种基于金字塔Transformer的点云重建方法、装置、设备及 介质
技术领域
本发明属于计算机视觉领域,更具体地,涉及一种基于金字塔Transformer的点云重建方法、装置、设备及介质。
背景技术
多视图立体三维重建技术利用输入的多张不同视角的图片重建出三维物体,该技术是研究如何通过图片的二维信息来获取物体在空间中的三维信息,最终得到物体的空间三维模型。传统的三维重建技术通过输入多张不同视角的图片,估算出每张图片对应的相机参数,再把图片中不同像素上的物体重投影到三维空间,从而重建出物体的三维结构。但是传统方法需要较多的输入图片,对反光物体、纹理较少物体重建效果较差。
近些年,深度学习不断发展,越来越多的研究基于深度学习展开。深度学习通过输入大量的图片和其对应的三维结构来训练网络,使网络能够自适应的提取图片中的信息,分辨出不同的物体形状。深度学习方法相比于传统方法,需要更少的输入图片并且能达到更加优秀的性能。然而,将深度学习应用在三维重建中并没有想象的那么简单。不像图片或者视频都是有序且排列规律的,很多三维表征方式如多边形网格、点云都是不规律或者无序的。因此,那些应用在二维领域的网络结构不一定保证在三维领域同样适用。
在中国专利CN113205579A中公开了一种三维重建方法、装置、设备及存储介质。这种方法充分考量每张视图内及每张视图间的特征,利用各视图的互补性和一致性有效提高重建结果精度。但该方法只考虑了单一尺度的局部特征,对于物体表面细节的重建精度较低。
发明内容
针对现有技术的缺陷和改进需求,本发明提供了一种基于金字塔Transformer的点云重建方法、装置、设备及介质,旨在解决三维重建中物体表面细节重建精度较低的技术问题。
为实现上述目的,第一方面,本发明提供了一种基于金字塔Transformer的点云重建方法,包括:
获取目标对象不同视角下的多张视图,并对每张视图进行处理以得到相应的点特征数据;将所述点特征数据输入金字塔网络,所述金字塔网络包括从下至上的第一通道和从上至下的第二通道,所述第一通道和第二通道层数相同,且同一层采样点的数量相同;每一层均对输入的点特征进行采样,再基于每张视图采样后的点特征,利用其他视图可见部分的点特征更新当前视图不可见部分的点特征,并利用Transfromer获取每张视图中各更新后的点特征之间关联,得到注意力机制更新后的输出;所述点特征数据经过所述第一通道时,将每层注意力机制更新后的输出输入下一层,直至将所述第一通道最顶层的注意力机制更新后的输出输入所述第二通道最顶层;所述点特征数据经过所述第二通道时,将每层注意力机制更新后的输出与和下一层处于同一层的第一通道对应层的注意力机制更新后的输出进行拼接后输入下一层;将所述第二通道最底层的注意力机制更新后的输出转换成点云坐标,得到每张视图的点云结果,并对每张视图的点云结果取交集,以表征点云重建后的目标对象。
进一步地,所述对每张视图进行处理以得到相应的点特征数据,包括:
根据神经网络算法对每张视图进行图像编码处理,以得到每张视图对应的特征图;根据预设相机内参矩阵以及每张视图的预设随机点云确定每张视图的局部特征数据;根据神经网络算法对所述预设随机点云进行处理,以得到的每张视图的全局特征数据;将每张视图的所述局部特征数据和所述全局特征数据进行拼接,以得到每张视图的所述点特征数据。
进一步地,所述根据预设相机内参矩阵以及每张视图的预设随机点云确定每张视图的局部特征数据,包括:
根据所述预设相机内参矩阵将每张视图的所述预设随机点云投影于对应的所述特征图上,得到所述预设随机点云在对应的所述特征图上的坐标数据;将所述坐标数据在对应的所述特征图上形成的特征确定为每张视图的所述局部特征数据。
进一步地,所述根据神经网络算法对所述预设随机点云进行处理,以得到的每张视图的全局特征数据,包括:
通过所述神经网络算法对所述预设随机点云进行处理,以得到所述预设随机点云对应的初始特征点;将所述初始特征点的均值和方差转换为对应的每个特征图的均值和方差;将所述特征图的均值和方差确定为对应的每张视图的全局特征数据。
进一步地,所述对输入的点特征进行采样,包括:通过学习带权重的矩阵,对输入的点特征进行自适应采样。
进一步地,在所述将所述第二通道最底层的注意力机制更新后的输出转换成点云坐标之前,还包括:
将所述第二通道每一层的注意力机制更新后的输出转换成点云坐标,得到对应层的点云重建结果;基于对应层的损失函数对所述第二通道每一层进行调参处理,并得到所述第二通道每一层优化后的注意力机制更新后的输出;将所述第二通道每一层优化后的注意力机制更新后的输出与和下一层处于同一层的第一通道对应层的注意力机制更新后的输出进行拼接后输入下一层,得到所述第二通道下一层优化后的注意力机制更新后的输出;直至得到所述第二通道最底层优化后的注意力机制更新后的输出。
第二方面,本发明提供了一种基于金字塔Transformer的点云重建装置,包括:
点特征获取模块,用于获取目标对象不同视角下的多张视图,并对每张视图进行处理以得到相应的点特征数据;点特征更新模块,用于将所述点特征数据输入金字塔网络,所述金字塔网络包括从下至上的第一通道和从上至下的第二通道,所述第一通道和第二通道层数相同,且同一层采样点的数量相同;每一层均对输入的点特征进行采样,再基于每张视图采样后的点特征,利用其他视图可见部分的点特征更新当前视图不可见部分的点特征,并利用Transfromer获取每张视图中各更新后的点特征之间关联,得到注意力机制更新后的输出;所述点特征数据经过所述第一通道时,将每层注意力机制更新后的输出输入下一层,直至将所述第一通道最顶层的注意力机制更新后的输出输入所述第二通道最顶层;所述点特征数据经过所述第二通道时,将每层注意力机制更新后的输出与和下一层处于同一层的第一通道对应层的注意力机制更新后的输出进行拼接后输入下一层;点云重建模块,用于将所述第二通道最底层的注意力机制更新后的输出转换成点云坐标,得到每张视图的点云结果,并对每张视图的点云结果取交集,以表征点云重建后的目标对象。
第三方面,本发明提供一种电子设备,包括:存储器和至少一个处理器;所述存储器存储计算机执行指令;所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如第一方面任一项所述的方法。
第四方面,本发明提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如第一方面任一项所述的方法。
总体而言,通过本发明所构思的以上技术方案,能够取得以下有益效果:
(1)本发明在获得每张视图对应的点特征数据后,将点特征数据输入双通道金字塔网络,每一层均对输入的点特征进行采样,再基于每张视图采样后的点特征,利用其他视图可见部分的点特征更新当前视图不可见部分的点特征,并利用Transfromer获取每张视图中各更新后的点特征之间关联,得到注意力机制更新后的输出。并且,点特征数据经过第一通道时,将每层注意力机制更新后的输出输入下一层,直至将第一通道最顶层的注意力机制更新后的输出输入第二通道最顶层;点特征数据经过第二通道时,将每层注意力机制更新后的输出与和下一层处于同一层的第一通道对应层的注意力机制更新后的输出进行拼接后输入下一层。将第二通道最底层的注意力机制更新后的输出转换成点云坐标,得到每张视图的点云结果,并对每张视图的点云结果取交集,以表征点云重建后的目标对象。如此,本发明可以考虑到物体表面的细节部分以及精细部分,孔洞等方面的重建,因而三维重建精度更高。
(2)本发明通过学习带权重的矩阵,对输入的点特征进行自适应采样,由于带权重的矩阵中每个参数考虑了点和点之间的关联,使得采样更加高效和准确。
(3)本发明通过损失函数依次优化金字塔网络第二通道各层的网络参数,使得每层反馈给下一层的注意力机制更新后的输出均是有效的,从而进一步提高三维重建精度。
附图说明
图1为本发明实施例提供的一种基于金字塔Transformer的点云重建方法的流程示意图。
图2为本发明实施例提供的一种基于金字塔Transformer的点云重建方法的整体网络结构示意图。
图3为本发明实施例提供的一种基于金字塔Transformer的点云重建装置的结构框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
在本发明中,本发明及附图中的术语“第一”、“第二”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
实施例一
参阅图1,结合图2,本发明实施例提供了一种基于金字塔Transformer的点云重建方法,包括:
S1,获取目标对象不同视角下的多张视图,并对每张视图进行处理以得到相应的点特征数据。
本实施例中,为了得到更精确的点特征,从输入图像中提取多尺度的全局和局部信息。对于点的局部特征,本方案使用VGG16网络对输入图像进行编码,输出不同深度卷积神经网络的结果得到多尺度特征图。得到这些二维图片的特征图之后,利用相机的本征矩阵将初始化随机点云投影到特征图上,得到每个点在特征图上的坐标,该坐标在特征图对应的特征即为该点的局部特征。通过这种方式,将相机的相机矩阵编码到网络中,帮助网络更好的学习物体的几何信息。对于点的全局特征,先将初始化随机点云输入多个多层感知机MLP中,得到初始点的特征,然后将初始点特征的均值和方差转换成特征图的均值和方差,从而得到点的全局特征。最后将点的全局特征和局部特征拼接在一起,得到相应的点特征数据。
S2,将所述点特征数据输入金字塔网络,所述金字塔网络包括从下至上的第一通道和从上至下的第二通道,所述第一通道和第二通道层数相同,且同一层采样点的数量相同;每一层均对输入的点特征进行采样,再基于每张视图采样后的点特征,利用其他视图可见部分的点特征更新当前视图不可见部分的点特征,并利用Transfromer获取每张视图中各更新后的点特征之间关联,得到注意力机制更新后的输出;所述点特征数据经过所述第一通道时,将每层注意力机制更新后的输出输入下一层,直至将所述第一通道最顶层的注意力机制更新后的输出输入所述第二通道最顶层;所述点特征数据经过所述第二通道时,将每层注意力机制更新后的输出与和下一层处于同一层的第一通道对应层的注意力机制更新后的输出进行拼接后输入下一层。
本实施例中,金字塔网络结构旨在融合低层次的高精度几何特征和高层次的高精度表征特征,从而提取出更加丰富的点特征。如图2所示,本发明采用从下至上和从上至下的双通道结构,并在同一层次之间采用跳跃连接的方式设计金字塔结构。对于金字塔的每一层,都设有SGT单元对点的特征进行变换和更新,包括采样、图神经网络和Transformer三个模块,每一层经过采样后的点的数量并不相同,并在每一层重建出不同数量的点云结果。本实施例中,金字塔设置为3层,每一层的采样数量分别为2048、1024和512,从下至上方向逐层降低点的采样数量,从上至下方向逐层增加点的采样数量,两个方向上同一层点的数量是相同的。下采样点云会使得点的空间信息和整体形状信息更加清晰,上采样点云会使得细节的填充更加具体。同时随着网络的深入,高层次的点特征语义信息更丰富,低层次的几何信息更精确。通过融合这种不同层次和点数量上的特征,使得最后的点特征拥有足够准确的点特征去实现更高精度的重建。
具体的,每一层SGT单元均包括采样、图神经网络和Transformer三个模块。
(1)采样
本发明采用一种自适应的采样方式,充分考虑了点和点内部的关联。令每个视角下点的特征为:
Figure 794471DEST_PATH_IMAGE001
。N1是输入的点的数量,D1是输入的点的特征。为了考虑到点和点之间的关联,我们让网络学习一个权重参数矩阵:
Figure 817922DEST_PATH_IMAGE002
,N2是采样的数量(如果N1>N2,转换是下采样,如果N1<N2,转换是上采样)。令Fs是采样后的点特征集合,采样过程可以定义为:
Figure 232723DEST_PATH_IMAGE003
Figure 253900DEST_PATH_IMAGE004
是Fs中第i个点特征向量,fk是f的第k个点特征,wik是权重参数矩阵W的权重,
Figure 488572DEST_PATH_IMAGE005
Figure 984888DEST_PATH_IMAGE006
是一维卷积层的权重和偏差。W的每个参数考虑了点和点之间的关联,因为每个点都能传递或多或少的信息,距离更远的点能传递的信息更少,距离更近的点能传递的信息更多。因此,Fs是基于点之间的关联来进行的采样,从而更加高效和准确。
(2)图神经网络
不同于2D图片,点云是无序不规则的,通用的网络模型并不适用于点云。图神经网络考虑点之间的连接,更加适用于不规则表征。我们利用图神经网络来聚合局部点特征同时利用不同视图的互补性更新点特征。图网络需要定义节点和边来传递信息。在本发明中,我们选择点特征作为图的节点,为了学习到局部特征和其他视图上的互补特征来更新每个视图下的可见部分和不可见部分,我们将每个点和每个视图上最近的k个点相连接,来作为图的边,由此来定义好图神经网络的节点和边。为了更新相邻的节点,我们采用注意力机制来动态的分配每条边的权重。具体地,令Ni是节点i的相邻边,j是相邻边中的某个节点,
Figure 254195DEST_PATH_IMAGE007
Figure 180694DEST_PATH_IMAGE008
是经过采样之后的点特征,
Figure 433821DEST_PATH_IMAGE009
是当前节点更新之后的特征,具体过程定义为:
Figure 471178DEST_PATH_IMAGE010
Figure 594992DEST_PATH_IMAGE011
其中,
Figure 692392DEST_PATH_IMAGE013
为每条边的权重,相连点的关系越大权重越大,相连点的关系越小权重越小,是一个可以学习的参数;
Figure 167236DEST_PATH_IMAGE015
为卷积网络层参数,表示一次非线性变换;W用来增加点特征的维度,
Figure 28792DEST_PATH_IMAGE016
用来表示拼接两个特征,
Figure 7112DEST_PATH_IMAGE017
函数表示激活函数,本发明中选择leackyReLU函数。我们首先拼接当前节点特征和其相邻节点特征,然后利用Wa映射并归一化特征为相邻边的权重,最后用每条相邻边的权重更新当前节点的特征。由于权重是一个动态学习的过程,可以自适应的去考虑点和点之间的关联来更新特征。
(3)Transformer
Transformer专为序列建模任务而设计,因其使用注意力来对数据中的长期依赖项(例如词序列)进行建模而著称。而点云类似于文本词,个体之间的关系复杂且难以建模,而Transformer则适合对点之间的全局关系进行建模。受此启发,我们在SGT单元中使用Transformer架构。并且在本发明中,我们将原始位置编码和输入嵌入合并到点特征提取模块中,它可以生成可区分的特征,因为每个点都有代表其空间位置的唯一坐标。令
Figure 931206DEST_PATH_IMAGE018
Figure 644078DEST_PATH_IMAGE019
,其中Q,K,V分别query,key,value矩阵,G表示经过图神经网络之后的点特征,具体的转换过程如下:
Figure 6926DEST_PATH_IMAGE020
其中
Figure 121644DEST_PATH_IMAGE021
Figure 341272DEST_PATH_IMAGE022
,共享可学习的线性变换,da是query和key向量的维度,de是value向量的维度。为了节约计算资源,本方案中选择将da设置为de/4。随后我们利用query和key矩阵得到注意力权重矩阵:
Figure 275862DEST_PATH_IMAGE023
随后归一化为:
Figure 707980DEST_PATH_IMAGE024
Figure 332996DEST_PATH_IMAGE025
Figure 674591DEST_PATH_IMAGE026
其中,
Figure 142482DEST_PATH_IMAGE028
为自注意力层的输出参数,表示特征之间的相关联程度,表征一个全局的特征关系;
Figure 863444DEST_PATH_IMAGE030
表示对
Figure 342967DEST_PATH_IMAGE028
按照维度da归一化处理后的结果;
Figure 169978DEST_PATH_IMAGE032
表示对
Figure 813580DEST_PATH_IMAGE030
进行softmax归一化处理后的结果;
Figure 259605DEST_PATH_IMAGE034
表示
Figure 921530DEST_PATH_IMAGE030
的第k个元素。
自注意力权重更新之后的输出Fsa为
Figure DEST_PATH_IMAGE035
。为了得到最后的输出,我们采用类似的跳跃连接将Fsa和输入的特征G加起来得到最后的输出:Fout = Fsa + G。
在本发明中,每个视图输入到金字塔网络模块的点特征为
Figure 466912DEST_PATH_IMAGE036
,代表每个视图输入是2048个点,每个点的特征维度是128,从下至上,每经过一层特征分别变换为
Figure DEST_PATH_IMAGE037
Figure 126039DEST_PATH_IMAGE038
。随后从上至下,每经过一层特征分别变为
Figure DEST_PATH_IMAGE039
Figure 906913DEST_PATH_IMAGE040
,然后将每一层的相同维度的特征级连起来,并将每一层的点特征通过一个输出通道为3的一维卷积层,得到每一层的点云输出。
S3,将所述第二通道最底层的注意力机制更新后的输出转换成点云坐标,得到每张视图的点云结果,并对每张视图的点云结果取交集,以表征点云重建后的目标对象。
进一步的,在执行S3之前,本发明还可以通过损失函数依次优化金字塔网络第二通道各层的网络参数,使得每层反馈给下一层的注意力机制更新后的输出均是有效的,从而进一步提高三维重建精度。具体为:将所述第二通道每一层的注意力机制更新后的输出转换成点云坐标,得到对应层的点云重建结果;基于对应层的损失函数对所述第二通道每一层进行调参处理,并得到所述第二通道每一层优化后的注意力机制更新后的输出;将所述第二通道每一层优化后的注意力机制更新后的输出与和下一层处于同一层的第一通道对应层的注意力机制更新后的输出进行拼接后输入下一层,得到所述第二通道下一层优化后的注意力机制更新后的输出;直至得到所述第二通道最底层优化后的注意力机制更新后的输出。
实施例二
参阅图3,本发明提供了本发明实施例提供的一种基于金字塔Transformer的点云重建装置300,所述装置300包括:
点特征获取模块310,用于获取目标对象不同视角下的多张视图,并对每张视图进行处理以得到相应的点特征数据;
点特征更新模块320,用于将所述点特征数据输入金字塔网络,所述金字塔网络包括从下至上的第一通道和从上至下的第二通道,所述第一通道和第二通道层数相同,且同一层采样点的数量相同;每一层均对输入的点特征进行采样,再基于每张视图采样后的点特征,利用其他视图可见部分的点特征更新当前视图不可见部分的点特征,并利用Transfromer获取每张视图中各更新后的点特征之间关联,得到注意力机制更新后的输出;所述点特征数据经过所述第一通道时,将每层注意力机制更新后的输出输入下一层,直至将所述第一通道最顶层的注意力机制更新后的输出输入所述第二通道最顶层;所述点特征数据经过所述第二通道时,将每层注意力机制更新后的输出与和下一层处于同一层的第一通道对应层的注意力机制更新后的输出进行拼接后输入下一层;
点云重建模块330,用于将所述第二通道最底层的注意力机制更新后的输出转换成点云坐标,得到每张视图的点云结果,并对每张视图的点云结果取交集,以表征点云重建后的目标对象。
本实施例中,各模块的具体实施方式,请参考实施例一中的描述,在此将不作复述。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种基于金字塔Transformer的点云重建方法,其特征在于,包括:
获取目标对象不同视角下的多张视图,并对每张视图进行处理以得到相应的点特征数据;
将所述点特征数据输入金字塔网络,所述金字塔网络包括从下至上的第一通道和从上至下的第二通道,所述第一通道和第二通道层数相同,且同一层采样点的数量相同;每一层均对输入的点特征进行采样,再基于每张视图采样后的点特征,利用其他视图可见部分的点特征更新当前视图不可见部分的点特征,并利用Transfromer获取每张视图中各更新后的点特征之间关联,得到注意力机制更新后的输出;
所述点特征数据经过所述第一通道时,将每层注意力机制更新后的输出输入下一层,直至将所述第一通道最顶层的注意力机制更新后的输出输入所述第二通道最顶层;
所述点特征数据经过所述第二通道时,将每层注意力机制更新后的输出与和下一层处于同一层的第一通道对应层的注意力机制更新后的输出进行拼接后输入下一层;
将所述第二通道最底层的注意力机制更新后的输出转换成点云坐标,得到每张视图的点云结果,并对每张视图的点云结果取交集,以表征点云重建后的目标对象。
2.根据权利要求1所述的方法,其特征在于,所述对每张视图进行处理以得到相应的点特征数据,包括:
根据神经网络算法对每张视图进行图像编码处理,以得到每张视图对应的特征图;
根据预设相机内参矩阵以及每张视图的预设随机点云确定每张视图的局部特征数据;根据神经网络算法对所述预设随机点云进行处理,以得到的每张视图的全局特征数据;
将每张视图的所述局部特征数据和所述全局特征数据进行拼接,以得到每张视图的所述点特征数据。
3.根据权利要求2所述的方法,其特征在于,所述根据预设相机内参矩阵以及每张视图的预设随机点云确定每张视图的局部特征数据,包括:
根据所述预设相机内参矩阵将每张视图的所述预设随机点云投影于对应的所述特征图上,得到所述预设随机点云在对应的所述特征图上的坐标数据;
将所述坐标数据在对应的所述特征图上形成的特征确定为每张视图的所述局部特征数据。
4.根据权利要求2所述的方法,其特征在于,所述根据神经网络算法对所述预设随机点云进行处理,以得到的每张视图的全局特征数据,包括:
通过所述神经网络算法对所述预设随机点云进行处理,以得到所述预设随机点云对应的初始特征点;将所述初始特征点的均值和方差转换为对应的每个特征图的均值和方差;
将所述特征图的均值和方差确定为对应的每张视图的全局特征数据。
5.根据权利要求1至4任一项所述的方法,其特征在于,所述对输入的点特征进行采样,包括:通过学习带权重的矩阵,对输入的点特征进行自适应采样。
6.根据权利要求1至4任一项所述的方法,其特征在于,在所述将所述第二通道最底层的注意力机制更新后的输出转换成点云坐标之前,还包括:
将所述第二通道每一层的注意力机制更新后的输出转换成点云坐标,得到对应层的点云重建结果;基于对应层的损失函数对所述第二通道每一层进行调参处理,并得到所述第二通道每一层优化后的注意力机制更新后的输出;
将所述第二通道每一层优化后的注意力机制更新后的输出与和下一层处于同一层的第一通道对应层的注意力机制更新后的输出进行拼接后输入下一层,得到所述第二通道下一层优化后的注意力机制更新后的输出;直至得到所述第二通道最底层优化后的注意力机制更新后的输出。
7.一种基于金字塔Transformer的点云重建装置,其特征在于,包括:
点特征获取模块,用于获取目标对象不同视角下的多张视图,并对每张视图进行处理以得到相应的点特征数据;
点特征更新模块,用于将所述点特征数据输入金字塔网络,所述金字塔网络包括从下至上的第一通道和从上至下的第二通道,所述第一通道和第二通道层数相同,且同一层采样点的数量相同;每一层均对输入的点特征进行采样,再基于每张视图采样后的点特征,利用其他视图可见部分的点特征更新当前视图不可见部分的点特征,并利用Transfromer获取每张视图中各更新后的点特征之间关联,得到注意力机制更新后的输出;所述点特征数据经过所述第一通道时,将每层注意力机制更新后的输出输入下一层,直至将所述第一通道最顶层的注意力机制更新后的输出输入所述第二通道最顶层;所述点特征数据经过所述第二通道时,将每层注意力机制更新后的输出与和下一层处于同一层的第一通道对应层的注意力机制更新后的输出进行拼接后输入下一层;
点云重建模块,用于将所述第二通道最底层的注意力机制更新后的输出转换成点云坐标,得到每张视图的点云结果,并对每张视图的点云结果取交集,以表征点云重建后的目标对象。
8.一种电子设备,其特征在于,包括:存储器和至少一个处理器;
所述存储器存储计算机执行指令;
所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如权利要求1-6任一项所述的方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如权利要求1-6任一项所述的方法。
CN202111444030.8A 2021-11-30 2021-11-30 一种点云重建方法、装置、设备及介质 Active CN113870422B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202111444030.8A CN113870422B (zh) 2021-11-30 2021-11-30 一种点云重建方法、装置、设备及介质
US17/739,166 US11488283B1 (en) 2021-11-30 2022-05-09 Point cloud reconstruction method and apparatus based on pyramid transformer, device, and medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111444030.8A CN113870422B (zh) 2021-11-30 2021-11-30 一种点云重建方法、装置、设备及介质

Publications (2)

Publication Number Publication Date
CN113870422A true CN113870422A (zh) 2021-12-31
CN113870422B CN113870422B (zh) 2022-02-08

Family

ID=78985433

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111444030.8A Active CN113870422B (zh) 2021-11-30 2021-11-30 一种点云重建方法、装置、设备及介质

Country Status (2)

Country Link
US (1) US11488283B1 (zh)
CN (1) CN113870422B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114022788A (zh) * 2022-01-05 2022-02-08 长沙理工大学 遥感图像变化检测方法、装置、计算机设备和存储介质
CN115357645A (zh) * 2022-09-05 2022-11-18 杭州思拓瑞吉科技有限公司 基于金字塔加权的能量管理系统时序数据在线采样算法
CN115375910A (zh) * 2022-09-14 2022-11-22 清华大学 一种基于注意力机制的点云特征提取方法及装置

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102295202B1 (ko) * 2020-01-31 2021-08-27 중앙대학교 산학협력단 다중 객체 검출 방법 및 그 장치
US11847811B1 (en) * 2022-07-26 2023-12-19 Nanjing University Of Posts And Telecommunications Image segmentation method combined with superpixel and multi-scale hierarchical feature recognition
CN115880183B (zh) * 2022-12-28 2024-03-15 广州极点三维信息科技有限公司 基于深度网络的点云模型修复方法、系统、装置及介质

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018102190A1 (en) * 2016-11-29 2018-06-07 Blackmore Sensors and Analytics Inc. Method and system for classification of an object in a point cloud data set
WO2018170472A1 (en) * 2017-03-17 2018-09-20 Honda Motor Co., Ltd. Joint 3d object detection and orientation estimation via multimodal fusion
US20190096125A1 (en) * 2017-09-28 2019-03-28 Nec Laboratories America, Inc. Generating occlusion-aware bird eye view representations of complex road scenes
CN110191299A (zh) * 2019-04-15 2019-08-30 浙江大学 一种基于卷积神经网络的多重帧插值方法
CN111462329A (zh) * 2020-03-24 2020-07-28 南京航空航天大学 一种基于深度学习的无人机航拍影像的三维重建方法
CN112541532A (zh) * 2020-12-07 2021-03-23 长沙理工大学 基于密集连接结构的目标检测方法
US11055900B1 (en) * 2020-02-28 2021-07-06 Weta Digital Limited Computer-generated image processing including volumetric scene reconstruction to replace a designated region
US20210227152A1 (en) * 2020-01-20 2021-07-22 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for generating image
CN113313173A (zh) * 2021-06-01 2021-08-27 中山大学 基于图表示和改进Transformer的人体解析方法
CN113345106A (zh) * 2021-06-24 2021-09-03 西南大学 一种基于多尺度多层级转换器的三维点云分析方法及系统
WO2021191908A1 (en) * 2020-03-25 2021-09-30 Yissum Research Development Company Of The Hebrew University Of Jerusalem Ltd. Deep learning-based anomaly detection in images
CN113537393A (zh) * 2021-08-09 2021-10-22 南通大学 一种基于改进Transformer的黑暗场景三维人体姿态估计算法
CN113657124A (zh) * 2021-07-14 2021-11-16 内蒙古工业大学 基于循环共同注意力Transformer的多模态蒙汉翻译方法
CN113706686A (zh) * 2021-07-09 2021-11-26 苏州浪潮智能科技有限公司 一种三维点云重建结果补全方法及相关组件

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11531088B2 (en) * 2019-11-21 2022-12-20 Nvidia Corporation Deep neural network for detecting obstacle instances using radar sensors in autonomous machine applications
US11625839B2 (en) * 2020-05-18 2023-04-11 Toyota Research Institute, Inc. Bird's eye view based velocity estimation via self-supervised learning
US11423567B2 (en) * 2020-06-17 2022-08-23 Fotonation Limited Method and system to determine the location and/or orientation of a head
CN113205579B (zh) 2021-04-28 2023-04-18 华中科技大学 三维重建方法、装置、设备及存储介质
US11399531B1 (en) * 2021-10-20 2022-08-02 Verdant Robotics, Inc. Precision detection and control of vegetation with real time pose estimation
CN114693873A (zh) * 2022-03-29 2022-07-01 首都师范大学 一种基于动态图卷积和注意力机制的点云补全方法

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018102190A1 (en) * 2016-11-29 2018-06-07 Blackmore Sensors and Analytics Inc. Method and system for classification of an object in a point cloud data set
WO2018170472A1 (en) * 2017-03-17 2018-09-20 Honda Motor Co., Ltd. Joint 3d object detection and orientation estimation via multimodal fusion
US20190096125A1 (en) * 2017-09-28 2019-03-28 Nec Laboratories America, Inc. Generating occlusion-aware bird eye view representations of complex road scenes
CN110191299A (zh) * 2019-04-15 2019-08-30 浙江大学 一种基于卷积神经网络的多重帧插值方法
US20210227152A1 (en) * 2020-01-20 2021-07-22 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for generating image
US11055900B1 (en) * 2020-02-28 2021-07-06 Weta Digital Limited Computer-generated image processing including volumetric scene reconstruction to replace a designated region
CN111462329A (zh) * 2020-03-24 2020-07-28 南京航空航天大学 一种基于深度学习的无人机航拍影像的三维重建方法
WO2021191908A1 (en) * 2020-03-25 2021-09-30 Yissum Research Development Company Of The Hebrew University Of Jerusalem Ltd. Deep learning-based anomaly detection in images
CN112541532A (zh) * 2020-12-07 2021-03-23 长沙理工大学 基于密集连接结构的目标检测方法
CN113313173A (zh) * 2021-06-01 2021-08-27 中山大学 基于图表示和改进Transformer的人体解析方法
CN113345106A (zh) * 2021-06-24 2021-09-03 西南大学 一种基于多尺度多层级转换器的三维点云分析方法及系统
CN113706686A (zh) * 2021-07-09 2021-11-26 苏州浪潮智能科技有限公司 一种三维点云重建结果补全方法及相关组件
CN113657124A (zh) * 2021-07-14 2021-11-16 内蒙古工业大学 基于循环共同注意力Transformer的多模态蒙汉翻译方法
CN113537393A (zh) * 2021-08-09 2021-10-22 南通大学 一种基于改进Transformer的黑暗场景三维人体姿态估计算法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
HE K等: "Spatial pyramid pooling in deep convolutional networks for visual recognition", 《COMPUTER VISION-ECCV 2014.NEW YORK:SPRINGER INTERNATIONAL PUBLISHING》 *
JADERBERG M等: "Spatial transformer networks", 《ADVANCES IN NEURAL INFORMATION PROCESSING SYSTEMS》 *
占哲琦等: "融合双注意力的深度神经网络在无人机目标检测中的应用", 《现代计算机》 *
卢宏涛等: "深度卷积神经网络在计算机视觉中的应用研究综述", 《数据采集与处理》 *
尹勰等: "基于深度卷积神经网络的图像目标检测", 《工业控制计算机》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114022788A (zh) * 2022-01-05 2022-02-08 长沙理工大学 遥感图像变化检测方法、装置、计算机设备和存储介质
CN114022788B (zh) * 2022-01-05 2022-03-04 长沙理工大学 遥感图像变化检测方法、装置、计算机设备和存储介质
CN115357645A (zh) * 2022-09-05 2022-11-18 杭州思拓瑞吉科技有限公司 基于金字塔加权的能量管理系统时序数据在线采样算法
CN115357645B (zh) * 2022-09-05 2023-09-01 杭州思拓瑞吉科技有限公司 基于金字塔加权的能量管理系统时序数据在线采样方法
CN115375910A (zh) * 2022-09-14 2022-11-22 清华大学 一种基于注意力机制的点云特征提取方法及装置

Also Published As

Publication number Publication date
US11488283B1 (en) 2022-11-01
CN113870422B (zh) 2022-02-08

Similar Documents

Publication Publication Date Title
CN113870422B (zh) 一种点云重建方法、装置、设备及介质
CN109377530B (zh) 一种基于深度神经网络的双目深度估计方法
CN110020989B (zh) 一种基于深度学习的深度图像超分辨率重建方法
WO2021018163A1 (zh) 神经网络的搜索方法及装置
CN111386536A (zh) 语义一致的图像样式转换
CN111462324B (zh) 一种在线时空语义融合方法和系统
CN109389667B (zh) 一种基于深度学习的高效全局光照明绘制方法
Cheng et al. Zero-shot image super-resolution with depth guided internal degradation learning
CN116229461A (zh) 一种基于多尺度细化的室内场景图像实时语义分割方法
CN113096239B (zh) 一种基于深度学习的三维点云重建方法
CN112288788B (zh) 单目图像深度估计方法
CN113283525A (zh) 一种基于深度学习的图像匹配方法
WO2023212997A1 (zh) 基于知识蒸馏的神经网络训练方法、设备及存储介质
CN117058160B (zh) 基于自适应特征融合网络的三维医学图像分割方法及系统
CN113449612B (zh) 一种基于子流型稀疏卷积的三维目标点云识别的方法
CN113066089A (zh) 一种基于注意力引导机制的实时图像语义分割网络
CN110633640A (zh) 优化PointNet对于复杂场景的识别方法
WO2023159757A1 (zh) 视差图生成方法和装置、电子设备及存储介质
CN112686830B (zh) 基于图像分解的单一深度图的超分辨率方法
CN114022356A (zh) 基于小波域的河道流量水位遥感图像超分辨率方法与系统
CN117593187A (zh) 基于元学习和Transformer的遥感图像任意尺度超分辨率重建方法
CN116977169A (zh) 数据处理方法、装置、设备、可读存储介质及程序产品
CN116740078A (zh) 图像分割处理方法、装置、设备以及介质
CN114155560B (zh) 基于空间降维的高分辨率人体姿态估计模型的轻量化方法
Lu et al. Utilizing homotopy for single image superresolution

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant