CN114298946B - 一种框架细节增强的深度学习点云补全方法 - Google Patents
一种框架细节增强的深度学习点云补全方法 Download PDFInfo
- Publication number
- CN114298946B CN114298946B CN202210229519.1A CN202210229519A CN114298946B CN 114298946 B CN114298946 B CN 114298946B CN 202210229519 A CN202210229519 A CN 202210229519A CN 114298946 B CN114298946 B CN 114298946B
- Authority
- CN
- China
- Prior art keywords
- features
- point cloud
- attention layer
- frame
- global
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Abstract
本发明公开了一种基于框架细节增强的深度学习点云补全方法,通过充分利用形状框架和细节之间的相互联系来更好地进行点云补全。该网络包含了一个框架‑细节Transformer模块,其中包含交叉注意力层和自注意力层,以充分探索从局部细节到全局形状的相关性,并利用它来增强整体形状框架。本发明不仅能够增强点云补全的细节和整体的准确度。
Description
技术领域
本发明属于点云补全领域,尤其涉及一种框架细节增强的深度学习点云补全方法。
背景技术
在日常生活中,人们通过手机、相机拍摄的照片和视频,以及在各大网站上看到的各类视频,都是以2D数据形式呈现在人们眼前。然而在现实生活中,所有的物体都是以3D形式存在于这个世界,2D数据仅是3D数据通过投影之后的一种表现形式。所以,如果想要进一步对真实世界场景进行模拟和理解,3D数据的获取往往必不可少。3D数据相较于2D数据有两个明显的优势:1)区别于2D数据只能表示固定视角下的画面,用户可以从各个不同的视角对3D数据进行观察。2)3D数据更有利于使用者同数据进行交互,如其在3D游戏和虚拟现实的应用。
因此,3D数据目前越来越受到人们的重视,其在各个领域都具有广泛的应用。随着增强及虚拟现实技术的发展,这些技术对于3D数据的需求也日益增加。增强现实和虚拟
现实中往往需要知道场景中物体的比例和位置,以便提供逼真的视觉效果,并实现对场景的更高层次的理解。例如,必须知道场景几何形状才能进行让虚拟的3D人物行走在桌子上,而不会直接穿过这些物体。同时,在机器人领域同样需要对周围的3D环境进行感知和理解,例如室内机器人需要能准确地将餐具放回餐桌。在自动驾驶领域,对于周围环境需要有更加准确的理解,以保证驾驶过程中的安全性,通常会采用2D和3D协同感知的方式,其中对于3D环境的感知和理解是及其重要的一环,例如自动驾驶过程中需要准确判断出周围物体在3D世界中的体积和移动速度等。除此之外,3D数据在医学图像中逐渐受到人们的重视,早期医学图像主要通过对2D图像进行研究和分析,随着3D建模技术的发展,通过对3D医学影像进行分析能够更加准确地获悉患者的情况。
既然三维数据如此重要,那么如何对三维数据进行获取也自然成为人们关心的重点问题。
随着3D传感器技术的不断更新和发展,低成本3D传感器相继问世,如微软推出的Kinect\cite{smisek20133d}以及英伟达公司推出的RealSense\cite{keselman2017intel}。相较于以前通过2D图像进行重建或手工建模的方式,通过3D传感器来获取3D数据变得越来越方便和容易,这也成为促进三维视觉快速发展的一个重要因素。同时,近年来许多移动智能手机也适配了深度传感相机,如2020年发布的两款iPhone都配有ToF深度相机,华为公司研发的P40、P40 pro,三星发布的S20+、S20 Ultra也都搭载了ToF深度相机模组,以便更好地进行增强现实应用并优化相机成像的效果。
另一方面,点云往往是3D传感器获得的数据的直接表现形式。如通过激光扫描仪得到的点云,可通过设备直接获得扫描得到的各点的3D坐标。又如深度相机虽然是以2D深度图的形式进行表现,但其往往会根据相机参数对2D深度图进行投影,最终同样以点云的形式在3D空间呈现。
然而,通过3D传感器扫描得到的3D点云数据的质量往往不尽人意,而这主要有以下几点原因:首先传感器在移动时,由于跟踪(Tracking)会不断累计误差,导致最终输出的3D模型也存在几何误差;其次3D传感器分辨率有限,导致扫描得到的数据不够密集。除上述两个原因外,更重要的一个原因是在扫描过程中往往物体之间存在遮挡,而这也导致了扫描得到的模型往往都是不完整的。通过传感器扫描得到的不完整3D物体模型往往很难被直接应用到后续的任务如增强现实、自动驾驶中,因为不完整的模型会导致不够准确的场景信息理解,直接影响到任务最终的成败与否。因此,如何能够对扫描得到的3D物体进行有效的补全,成为目前3D视觉领域一大重要的研究问题。
Point completion network是第一个直接在点云格式上利用深度学习的点云补全工作,该网络通过提取的全局特征向量恢复完整的 3D 模型,但无法提供精细的几何细节。近期的一些工作ECG,GRNet等通过利用局部特征获取到具有几何细节的完整形状,然而,这些工作通常利用卷积操作提取局部特征来恢复整个物体形状,而忽略了全局框架和局部细节之间的相关性。
发明内容
本发明针对现有技术的不足,如不能有效恢复细节信息以及不能有效利用细节特征对整体形状进行增强,提供了一个种由粗糙到精细的两阶段点云补全方法。在第一阶段,网络学习包含全局形状信息的粗略框架,用作后续细节增强的关键锚点。在第二阶段,通过建立粗糙框架锚点和局部细节特征之间的相关性,从而增强粗糙框架的几何细节。本发明的技术方案为一种框架细节增强的深度学习点云补全方法,包括以下步骤:
步骤1,给定X作为部分输入点云,首先利用 PCN 自动编码器来生成用于粗略形状补全的全局特征;
进一步地,步骤1的中给定X作为部分输入点云,首先利用自动编码器来生成用于粗略形状补全的全局特征,在自动编码器使用PointNet为基础框架,通过多层感知机来提取逐点特征,之后通过最大池化层获取全局特征。
进一步地,对于得到的全局特征,首先将其通过多层感知机将原本的低维度特征
提取到高维度特征而后通过Reshape操作来到得到与粗糙结果相同的维度,多层感知机可
以有效地提取点云的特征,之后再通过多层感知机回归出粗略的框架。
进一步地,框架-细节Transformer模块包括一个自注意力层和一个交叉注意力
层;其输入是F X 和F C ,自注意力层将对每个点的特征进行提取和聚合,输出和;交叉注
意层分析粗糙框架中的点和输入的局部模型中的点的相关性,并将来自局部模型的细节特
征F X 和F C 集成到粗糙框架点的特征中,最终得到增强后的特征。
更进一步地,所述框架-细节Transformer模块还包括一个可选的全局自注意力
层,可选的全局自注意力层可以应用于和的组合,以在全局视图中进一步传播特征,
全局自注意力层是根据内存的充裕情况选择添加或者不添加。
本发明有效增强了点云补全结果的细节:提供了一个基于框架细节增强的由粗糙到精细的点云补全方法,探索输入的部分形状和生成的粗略骨架之间的相关性,以实现以更多的约束进行细节恢复。同时提出了一种选择性注意力机制,可以在保证网络性能的前提下减少内存资源的消耗。本发明提供的方法能够有效地应用于真实扫描的数据之上。
附图说明
图1是本发明的点云补全网络的原理示意图。
图2是本发明的点云补全网络的网络框架图。
图3是本发明的点云补全网络的框架-细节Transformer示意图。
图4是本发明的U-Net 架构示意图。
具体实施方式
下面通过具体实施例和附图对本发明作进一步的说明。本发明的实施例是为了更好地使本领域的技术人员理解本发明,并不对本发明作任何的限制。
本发明基于深度学习与Transformer框架,网络结构如图2所示,该方法的网络主要以编码解码器为主要结构模型,在特征提取过程中主要用到PointNet为主要模块,该网络结构的主要优点在于利用了Transformer框架对粗糙补全结果进行了细节的融合增强,该网络包含以下几个步骤:
步骤1,给定X作为部分输入点云,首先自动编码器使用了PointNet为基础框架,通过多层感知机MLP来提取逐点特征,之后通过最大池化层获取粗略形状补全的全局特征;
步骤2,对于得到的全局特征,首先将其通过多层感知机MLP将原本的低维度特征
提取到高维度特征而后通过Reshape操作来到得到与粗糙结果相同的维度,多层感知机可
以有效地提取点云的特征,之后再通过MLP回归出粗略的框架:
步骤4,将F X 和F C 连同其对应的空间坐标P X 和P C 输入到框架-细节Transformer模块。框架-细节Transformer模块具体定义如下:
框架-细节Transformer如图3所示,由一个自注意力层、一个交叉注意力层和一个
可选的全局自注意力层组成。本模块的输入是F X 和F C ,它们代表了X和的逐点特征。自注
意力层将对每个点的特征进行提取和聚合,输出和。交叉注意层充分探索了粗糙框架
中的点和输入的局部模型中的点的相关性,并将来自局部模型的细节特征F X 和F C 集成到粗
糙框架点的特征中,最终得到增强后的特征。可选的全局自注意力层可以应用于
和的组合,以在全局视图中进一步传播特征。全局自注意力层可以提高网络性能,但相
应地需要额外的计算和内存消耗,因此该全局自注意力层是可根据内存的充裕情况选择添
加或者不添加。
其中表示线性投影,是一个包含线性层的多层感知机MLP,代表查询
值中第i个元素,代表键值中第i个元素,代表value中第i个元素。同样代表MLP,其
由线性层组成,且包含批量归一化操作和ReLU激活函数,为初始融合后的特征,d为特征
维度。计算自注意力特征和输入特征之间的偏移量可以获得更好的特征表示。这里自注意
力层中没有用到位置编码,因为从点坐标获得的点特征已经能够包含足够的位置信息。
根据观察,对F X 和F C 进行组合并直接应用自注意力层并不能获得良好的结果,因为粗糙框架是从单个全局向量中恢复的,因此F X 和F C 之间共享的信息以及建立的联系非常有限。
本发明提供了一个交叉注意力层,从而在进行坐标重建之前充分探索从局部细节到整体粗糙框架的相关性。其表达形式类似于之前的自注意力层,但其中有两个重要的不同:
2) 交叉注意力层中还用到了一个额外的位置编码层。通过添加位置编码层,能够更好地查找从局部模型到粗糙框架的联系。
对于位置编码可以直接使用每个点的空间坐标直接作为位置编码,然而,在将
输入传递到网络之前,使用高频函数将输入映射到更高维空间可以更好地拟合包含高频变
化的数据。因此受该工作的启发,给定位置p,本节定义了一个映射函数γ,表示从R L 到更高
维空间R 2L 。因此,位置编码函数可以表示为:
步骤5,将的一同输入到具有 U-Net 架构的重建网络中,以获得最终的细
节增强结果。具体来讲,重建网络遵循带有跨层连接的 U-Net 架构,使用EdgeConv作为特
征传播的基本模块,它通过选择邻域图特征空间中的K 个最近邻点来进行特征的传播。对
于每个下采样和上采样操作,利用到了Pointatrousgraph中的 Edge-preserved Pooling
和 Edge-preserved Unpooling模块。此外,还利用了边缘感知特征扩展EFE 模块根据所需
的最终分辨率来扩展点的特征。
应当理解的是,这里所讨论的实施方案及实例只是为了说明,对本领域技术人员来说,可以加以改进或变换,而所有这些改进和变换都应属于本发明所附权利要求的保护范围。
Claims (6)
1.一种框架细节增强的深度学习点云补全方法,其特征在于:
步骤1,给定X作为部分输入点云,首先利用自动编码器来生成用于粗略形状补全的全局特征;
其中,框架-细节Transformer模块包括一个自注意力层、一个交叉注意力层和一个可选的全局自注意力层;其输入是F X 和F C ,自注意力层将对每个点的特征进行提取和聚合,输出和;交叉注意层分析粗糙框架中的点和输入的局部模型中的点的相关性,并将来自局部模型的细节特征F X 和F C 集成到粗糙框架点的特征中,得到增强后的特征;可选的全局自注意力层可以应用于和的组合,以在全局视图中进一步传播特征,全局自注意力层是根据内存的充裕情况选择添加或者不添加;
2.根据权利要求1所述的框架细节增强的深度学习点云补全方法,其特征在于:
步骤1的中给定X作为部分输入点云,首先利用自动编码器来生成用于粗略形状补全的全局特征,在自动编码器使用PointNet为基础框架,通过多层感知机来提取逐点特征,之后通过最大池化层获取全局特征。
6.根据权利要求1所述的框架细节增强的深度学习点云补全方法,其特征在于:
步骤5具体为:使用EdgeConv作为特征传播的基本模块,它通过选择邻域图特征空间中的 K 个最近邻点来进行特征的传播,对于每个下采样和上采样操作,利用到了Pointatrousgraph中的 Edge-preserved Pooling 和 Edge-preserved Unpooling模块;利用了边缘感知特征扩展模块根据所需的最终分辨率来扩展点的特征。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210229519.1A CN114298946B (zh) | 2022-03-10 | 2022-03-10 | 一种框架细节增强的深度学习点云补全方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210229519.1A CN114298946B (zh) | 2022-03-10 | 2022-03-10 | 一种框架细节增强的深度学习点云补全方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114298946A CN114298946A (zh) | 2022-04-08 |
CN114298946B true CN114298946B (zh) | 2022-06-14 |
Family
ID=80978659
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210229519.1A Active CN114298946B (zh) | 2022-03-10 | 2022-03-10 | 一种框架细节增强的深度学习点云补全方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114298946B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115063459B (zh) * | 2022-08-09 | 2022-11-04 | 苏州立创致恒电子科技有限公司 | 点云配准方法及装置、全景点云融合方法及系统 |
CN115100235B (zh) * | 2022-08-18 | 2022-12-20 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 一种目标跟踪方法、系统及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020066662A1 (ja) * | 2018-09-25 | 2020-04-02 | 日本電信電話株式会社 | 形状補完装置、形状補完学習装置、方法、及びプログラム |
CN113379646A (zh) * | 2021-07-07 | 2021-09-10 | 厦门大学 | 一种利用生成对抗网络进行稠密点云补全的算法 |
CN113706686A (zh) * | 2021-07-09 | 2021-11-26 | 苏州浪潮智能科技有限公司 | 一种三维点云重建结果补全方法及相关组件 |
CN114004871A (zh) * | 2022-01-04 | 2022-02-01 | 山东大学 | 一种基于点云补全的点云配准方法及系统 |
-
2022
- 2022-03-10 CN CN202210229519.1A patent/CN114298946B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020066662A1 (ja) * | 2018-09-25 | 2020-04-02 | 日本電信電話株式会社 | 形状補完装置、形状補完学習装置、方法、及びプログラム |
CN113379646A (zh) * | 2021-07-07 | 2021-09-10 | 厦门大学 | 一种利用生成对抗网络进行稠密点云补全的算法 |
CN113706686A (zh) * | 2021-07-09 | 2021-11-26 | 苏州浪潮智能科技有限公司 | 一种三维点云重建结果补全方法及相关组件 |
CN114004871A (zh) * | 2022-01-04 | 2022-02-01 | 山东大学 | 一种基于点云补全的点云配准方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN114298946A (zh) | 2022-04-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11854118B2 (en) | Method for training generative network, method for generating near-infrared image and device | |
CN112771539B (zh) | 采用使用神经网络从二维图像预测的三维数据以用于3d建模应用 | |
CN114298946B (zh) | 一种框架细节增强的深度学习点云补全方法 | |
CN108876814B (zh) | 一种生成姿态流图像的方法 | |
CN107240129A (zh) | 基于rgb‑d相机数据的物体及室内小场景恢复与建模方法 | |
WO2020134818A1 (zh) | 图像处理方法及相关产品 | |
CN110910437B (zh) | 一种复杂室内场景的深度预测方法 | |
CN111860651B (zh) | 一种基于单目视觉的移动机器人半稠密地图构建方法 | |
JPWO2012153447A1 (ja) | 画像処理装置、映像処理方法、プログラム、集積回路 | |
US20220375220A1 (en) | Visual localization method and apparatus | |
CN111209811B (zh) | 一种实时检测眼球注意力位置的方法及系统 | |
CN114119889A (zh) | 基于跨模态融合的360度环境深度补全和地图重建方法 | |
US11961266B2 (en) | Multiview neural human prediction using implicit differentiable renderer for facial expression, body pose shape and clothes performance capture | |
Liu et al. | A survey of depth estimation based on computer vision | |
Mihajlovic et al. | Deepsurfels: Learning online appearance fusion | |
WO2022208440A1 (en) | Multiview neural human prediction using implicit differentiable renderer for facial expression, body pose shape and clothes performance capture | |
CN116597135A (zh) | Rgb-d多模态语义分割方法 | |
CN114663810B (zh) | 基于多模态的物体图像增广方法及装置、设备及存储介质 | |
JP2002520969A (ja) | 動き画像からの自動化された3次元シーン走査方法 | |
CN115330935A (zh) | 一种基于深度学习的三维重建方法及系统 | |
CN116797713A (zh) | 一种三维重建方法和终端设备 | |
JPH10255071A (ja) | 画像処理システム | |
Liu et al. | Deep Learning for 3D Human Pose Estimation and Mesh Recovery: A Survey | |
Cui et al. | MMFusion: A Generalized Multi-Modal Fusion Detection Framework | |
Su et al. | Omnidirectional Depth Estimation With Hierarchical Deep Network for Multi-Fisheye Navigation Systems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |