CN116721207A - 基于Transformer模型的三维重建方法、装置、设备及存储介质 - Google Patents
基于Transformer模型的三维重建方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN116721207A CN116721207A CN202310628840.1A CN202310628840A CN116721207A CN 116721207 A CN116721207 A CN 116721207A CN 202310628840 A CN202310628840 A CN 202310628840A CN 116721207 A CN116721207 A CN 116721207A
- Authority
- CN
- China
- Prior art keywords
- image
- rgb
- point cloud
- dimensional
- dimensional reconstruction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 63
- 230000006870 function Effects 0.000 claims description 17
- 238000004364 calculation method Methods 0.000 claims description 12
- 239000013598 vector Substances 0.000 claims description 9
- 238000012549 training Methods 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 7
- 230000007246 mechanism Effects 0.000 claims description 6
- 230000002123 temporal effect Effects 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 238000005457 optimization Methods 0.000 abstract description 5
- 238000006243 chemical reaction Methods 0.000 abstract description 3
- 230000008569 process Effects 0.000 description 10
- 238000013527 convolutional neural network Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 238000000638 solvent extraction Methods 0.000 description 3
- 230000001360 synchronised effect Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 230000035800 maturation Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 210000005036 nerve Anatomy 0.000 description 1
- 230000036544 posture Effects 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4038—Image mosaicing, e.g. composing plane images from plane sub-images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
- G06T9/002—Image coding using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Geometry (AREA)
- Computer Graphics (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本申请涉及一种基于Transformer模型的三维重建方法、装置、设备以及存储介质。所述方法包括:获取非刚性动态目标的RGB‑D图像序列;获取RGB‑D图像序列中每幅RGB‑D图像的三维点云数据,将三维点云数据和对应的RGB图像进行拼接,得到拼接图像序列;将所述拼接图像序列输入通过非刚性数据集训练好的三维重建模型,Transformer网络通过编码器同步编码所述拼接图像序列的时序信息和空间坐标信息,并通过解码器生成对齐的时序点云结果,根据所有时序点云结果生成所述非刚性动态目标的三维重建及循迹结果。本申请不需要额外的数据转换,在保证精确建模结果的同时简化了现有的任务优化建模方式。
Description
技术领域
本申请属于计算机视觉技术领域,特别涉及一种基于Transformer模型的三维重建方法、装置、设备以及存储介质。
背景技术
三维重建技术是指将现实世界中的物体或场景通过传感器等装置获取其三维信息,并利用计算机技术将其转化为数字模型的过程。三维重建技术包括多视图几何重建、结构光三维重建、深度学习三维重建等多种方法,这些方法都利用了传感器获取的图像或深度信息,通过计算机算法进行图像匹配、三维点云生成等步骤,最终生成三维模型。
传统的目标循迹技术主要适用于目标形状和尺寸在运动过程中保持不变的刚性目标,对于人体、动物等形状和姿态在运动过程中会发生变化的非刚性动态目标,传统的目标循迹技术效果较差。随着静态场景三维重建算法的不断成熟,非刚性动态目标的循迹和重建算法成为近年来的研究热点与研究难点。因此,近年来,一些新的非刚性动态目标循迹技术应运而生,例如基于姿态估计的循迹、基于形状变化的循迹等,这些技术不仅考虑目标的运动轨迹,还结合了目标的姿态、形状等特征,可以更准确地跟踪非刚性动态目标。
现有技术中,针对非刚性动态目标的同步循迹和重建的方法主要包括以下两种:
一、基于融合的方法:该方法先将数据处理为标准形式如符号距离函数(SDF)、截断符号距离函数(TSDF)等,再将处理后的数据和原始深度数据进行融合,融合过程中会产生对齐误差,当长时间建模时会造成累积误差,从而影响建模结果。
二、基于学习的方法:该方法利用现有非刚性动态目标的数据集,采用深度学习方法训练一个带有可学习参数的非线性模型,将新的RGB-D图像输入训练好的深度学习模型后可以生成非刚性动态目标的循迹和三维重建结果。目前的深度学习模型绝大部分都是基于DeepDeform进行训练,在模型训练前的预处理阶段,需要依赖复杂的变形图建模或者光流抽取,且模型优化方式较为复杂,往往需要额外的约束和正则信息导致模型优化求解较难。
发明内容
本申请提供了一种基于Transformer模型的三维重建方法、装置、设备以及存储介质,旨在至少在一定程度上解决现有技术中的上述技术问题之一。
为了解决上述问题,本申请提供了如下技术方案:
一种基于Transformer模型的三维重建方法,包括:
通过单传感器获取非刚性动态目标的RGB-D图像序列;
获取所述RGB-D图像序列中每幅RGB-D图像的三维点云数据,将所述三维点云数据和对应的RGB图像进行拼接,得到拼接图像序列;所述拼接图像序列中包括每幅RGB图像的RGB信息、三维点云数据的空间坐标信息以及时序信息;
将所述拼接图像序列输入训练好的三维重建模型,所述三维重建模型为Transformer网络,所述Transformer网络通过编码器同步编码所述拼接图像序列的时序信息和空间坐标信息,并通过解码器生成对齐的时序点云结果,根据所有时序点云结果生成所述非刚性动态目标的三维重建及循迹结果。
本申请实施例采取的技术方案还包括:所述获取所述RGB-D图像序列中每幅RGB-D图像的三维点云数据,将所述三维点云数据和对应的RGB图像进行拼接具体为:
使用实例分割CNN网络分割出所述RGB-D图像的感兴趣目标,并根据相机参数将所述RGB-D图像中的Depth图像映射到三维空间,得到对应的三维点云数据,将所述三维点云数据与RGB图像进行拼接,将拼接图像进行下采样后得到其维度为H×W×C×T,其中H和W分别为拼接图像的高和宽,C=6,包括所述拼接图像中RGB图像的二维RGB信息以及三维点云数据的空间坐标信息,T为RGB-D图像的帧数,用于表示每幅拼接图像的时序信息。
本申请实施例采取的技术方案还包括:所述将所述拼接图像序列输入训练好的三维重建模型之前,还包括:
将所述拼接图像序列输入Transformer网络进行训练,所述Transformer网络通过编码器将所述拼接图像序列分解成设定数量的图像块,并使用自注意力机制同步编码每个图像块中包含的时序信息和空间坐标信息,并输出带有掩码的RGB-D图像序列,所述解码器结合编码器输出的掩码图像生成对齐的时序点云结果,根据所有时序点云结果组成非刚性动态目标的三维重建及循迹结果。
本申请实施例采取的技术方案还包括:所述Transformer网络通过编码器将所述拼接图像序列分解成设定数量的图像块具体为:
将包含有三维点云数据和RGB图像的拼接图像分解为M=HW/P2个大小为P×P的不重叠图像块,将所述图像块展平后的向量x(p,t)线性嵌入成D维的嵌入向量:
上述公式中,xclass在序列首部表示一个可学习的嵌入,Epos表示编码每一个图像块的时空信息以获取位置信息,p=1,…M;t=1,…T。
本申请实施例采取的技术方案还包括:所述使用自注意力机制同步编码每个图像块中包含的时序信息和空间坐标信息,并输出带有掩码的RGB-D图像序列具体为:
首先计算在相同的空间坐标不同时间的图像块的时间自注意力,然后计算在相同时间的不同空间坐标的图像块的空间自注意力:
上述公式中,所述Transformer网络包括L层模型块,l表示所述Transformer网络的第l层模型块,MSA表示多头自注意力,LN表示正则化;
所述编码器的每一层均使用多头自注意力和多层感知器编码特征信息,并在每一个计算块都使用残差连接,最后一个计算块的嵌入编码作为编码器的整体输出:
本申请实施例采取的技术方案还包括:所述解码器结合编码器输出的掩码图像生成对齐的时序点云结果,根据所有时序点云结果组成非刚性动态目标的三维重建及循迹结果具体为:
所述解码器为Transformer解码器结构,所述解码器的输入为N×D维度的可学习的点嵌入,将所述点嵌入与编码器获得的嵌入计算交叉熵,并在每一层并行解码,N表示重建的点云数量;解码后的嵌入通过多层感知机进行线性映射,并被解码为N×T×3维度的数据,各个T之间的点云差值即为循迹结果。
本申请实施例采取的技术方案还包括:所述根据所有时序点云结果组成非刚性动态目标的三维重建及循迹结果之后,还包括:
根据所述三维重建及循迹结果计算损失函数,利用损失函数对所述Transformer网络进行优化,得到训练好的三维重建模型;所述损失函数计算公式为:
上述公式中,为优化参数,Mvalid为通过CNN网络获得的图像掩码,||2表示L2范数,Lmatch为预测点和真实值标签的匹配代价,t时刻和t+1时刻的空间三维点云位置Z一一对应,SF为t时刻和t+1时刻的点云差值,即为循迹数据。
本申请实施例采取的另一技术方案为:一种基于Transformer模型的三维重建方法装置,包括:
图像获取模块:用于通过单传感器获取非刚性动态目标的RGB-D图像序列;
图像处理模块:用于获取所述RGB-D图像序列中每幅RGB-D图像的三维点云数据,将所述三维点云数据和对应的RGB图像进行拼接,得到拼接图像序列;所述拼接图像序列中包括每幅RGB图像的RGB信息、三维点云数据的空间坐标信息以及时序信息;
三维重建模块:用于将所述拼接图像序列输入训练好的三维重建模型,所述三维重建模型为Transformer网络,所述Transformer网络通过编码器同步编码所述拼接图像序列的时序信息和空间坐标信息,并通过解码器生成对齐的时序点云结果,根据所有时序点云结果生成所述非刚性动态目标的三维重建及循迹结果。
本申请实施例采取的又一技术方案为:一种设备,所述设备包括处理器、与所述处理器耦接的存储器,其中,
所述存储器存储有用于实现所述基于Transformer模型的三维重建方法的程序指令;
所述处理器用于执行所述存储器存储的所述程序指令以控制基于Transformer模型的三维重建方法。
本申请实施例采取的又一技术方案为:一种存储介质,存储有处理器可运行的程序指令,所述程序指令用于执行所述基于Transformer模型的三维重建方法。
相对于现有技术,本申请实施例产生的有益效果在于:本申请实施例的基于Transformer模型的三维重建方法、装置、设备以及存储介质利用单传感器获取非刚性动态目标的RGB-D图像序列,将RGB-D图像序列输入Transformer网络,Transformer网络使用时空结合的编码器直接编码包含时序信息和空间信息的RGB-D图像序列特征,使用点云解码器生成对齐的时序点云结果,根据所有时序点云结果组成非刚性动态目标的三维重建及循迹结果。本申请实施例不需要额外的数据转换,解决了原始数据难以对齐的问题,模型也不需要额外的约束和正则信息,可以解决现有技术中由于长时间建模造成的累积误差,在保证精确建模结果的同时简化了现有的任务优化建模方式。
附图说明
图1是本申请实施例的基于Transformer模型的三维重建方法的流程图;
图2为本申请实施例的Transformer网络架构示意图;
图3为本申请实施例的基于Transformer模型的三维重建方法装置结构示意图;
图4为本申请实施例的设备结构示意图;
图5为本申请实施例的存储介质的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请中的术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”、“第三”的特征可以明示或者隐含地包括至少一个该特征。本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。本申请实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
请参阅图1,是本申请实施例的基于Transformer模型的三维重建方法的流程图。本申请实施例的基于Transformer模型的三维重建方法包括以下步骤:
S100:通过单传感器获取非刚性动态目标的RGB-D图像序列,并从RGB-D图像序列中抽取T张图像;
本步骤中,每幅RGB-D图像分别包括一幅普通的RGB图像以及一幅Depth图像(深度图像),RGB图像和Depth图像是配准的,像素点之间具有一对一的对应关系。T表示抽取的RGB-D图像序列的帧数,具体数值可根据实际应用场景进行设定。
S110:对抽取的T张RGB-D图像序列进行预处理,获取每幅RGB-D图像的三维点云数据,将三维点云数据和对应的RGB图像进行拼接,得到用于模型训练的拼接图像序列;
本步骤中,对RGB-D图像序列进行预处理具体为:给定一组RGB-D图像序列,首先使用一个实例分割CNN(Convolutional Neural Networks,卷积神经网络)网络分割出感兴趣目标,然后根据相机参数将Depth图像映射到三维空间,得到对应的三维点云数据,将三维点云数据与RGB图像进行拼接,将拼接图像下采样后得到其维度为H×W×C×T,其中H和W分别为拼接图像的高和宽,C=6,包括拼接图像中RGB图像的二维RGB信息以及三维点云数据的XYZ空间坐标信息,T为帧数,表示每幅拼接图像的时序信息。本申请实施例通过获取RGB-D图像序列的三维点云数据,将三维点云数据和RGB图像一起作为模型输入,避免了现有技术中需要将图像数据转换为SDF(Standard Delay Format,标准延时格式文件)或TSDF(truncated signed distance function,基于截断的带符号距离函数)、变形图或神经辐射场等形式,简化了图像处理过程,可以减少数据之间的漂移,避免了后续需要对齐操作导致的误差。
S120:将拼接图像序列输入训练好的CNN网络,得到带掩码的图片,将带掩码的图片输入Transformer网络进行训练,Transformer网络通过编码器将拼接图像序列分解成一定数量的图像块,并使用自注意力机制同步编码每个图像块中包含的时序信息和空间坐标信息,并输出带有掩码的RGB-D图像序列;
本步骤中,如图2所示,为本申请实施例的Transformer网络架构示意图,Transformer是一种基于自注意力机制的序列到序列模型,用于自然语言处理领域中的机器翻译任务。相较于传统的循环神经网络(RNN),Transformer模型具有更好的并行计算能力,更高的模型准确度以及更好的模型稳定性。该Transformer网络包括编码器和解码器两部分,其中,编码器采用基于Transformer模型的时空结合的编码器,为了能够同时处理空间坐标信息以及时序信息,需要将包含有三维点云数据和RGB图像的拼接图像分解为M=HW/P2个大小为P×P的不重叠图像块,将分解后的图像块展平后的向量x(p,t)线性嵌入成D维的嵌入向量(其中p=1,…M;t=1,…T):
公式(1)中,xclass在序列首部表示一个可学习的嵌入,Epos表示编码每一个图像块的时空信息以获取位置信息。为了获得拼接图像的时空信息,将拼接图像的空间坐标三维信息及时序信息编码成嵌入向量E并分开计算,将向量序列输入编码器结构。同样,时空信息的自注意力计算也是分开计算,首先计算在相同的空间坐标不同时间的图像块的时间自注意力,然后计算在相同时间的不同空间坐标的图像块的空间自注意力:
其中,Transformer网络包括L层模型块,l表示Transformer网络的第l层模型块。在网络的训练过程中,为了保证数据特征分布的稳定性,加速模型的收敛速度,在L层模型块之前使用LN(layer norm)层正则化,隐藏编码的计算公式如下:
本申请实施例中,编码器的每一层均使用多头自注意力(MSA)和多层感知器(MLP)编码特征信息,为了降低模型复杂度并减少过拟合,在每一个计算块都使用残差连接,最后一个计算块的嵌入编码作为编码器的整体输出:
其中,L表示Transformer网络的模型块层数,D表示图像分解成的图像块进行线性嵌入后设置的向量维度,M表示图像块数量。
S130:通过解码器结合编码器输出的掩码图像生成对齐的时序点云结果,根据所有时序点云结果组成非刚性动态目标的三维重建及循迹结果;
本步骤中,解码器结合输入N×D维度的可学习的点嵌入以及编码器输出的掩码图像推理时间和空间的位置及关联,用以生成最终的三维重建和循迹结果。如图2所示,本申请实施例中的解码器是一个标准的Transformer解码器结构,不同的是,为了获得最终的三维重建和循迹结果,将该解码器输入的N×D维度的可学习的点嵌入,与编码器获得的嵌入计算交叉熵,并在每一层并行解码,N表示重建的点云数量,受模型参数的限制,N小于原始输入点云数量。解码后的嵌入再通过一个简单的多层感知机进行线性映射,最终被解码为N×T×3维度的数据作为三维重建结果,各个T之间的点云差值即为循迹结果。即:非刚性动态目标的最终重建结果包括两部分:一部分来自当前时刻的原始三维点云,即直接从单传感器获得的深度信息,另一部分来自其他时刻循迹得到的补充更新的循迹点,两部分共同组成完整的三维重建结果。
S140:根据三维重建及循迹结果计算损失函数,利用损失函数对CNN网络进行优化,得到最优参数的三维重建模型;
本步骤中,为了简化损失函数并减少网络超参数的调整,本申请实施例将非刚性动态目标同步循迹和重建看作是对齐的点云预测问题,仅使用一项损失函数同步监督训练循迹和三维重建。给定输入一对非刚性动态目标的RGB-D图像序列X,X的维度是H×W×C×T,通过优化参数输出同步循迹和重建结果Y,Y的维度为N×T×3,损失函数计算公式如下:
上述公式中,n表示N个点云数量中的第n个点,Mvalid为通过CNN网络获得的图像掩码,||2表示L2范数。由于预测的点云数据具有无序性,使用匈牙利算法计算各点的最优匹配点,降低预测点和真实值标签的匹配代价Lmatch。t时刻和t+1时刻的空间三维点云位置Z一一对应,SF为t时刻和t+1时刻的点云差值,即循迹数据作为监督数据。本申请实施例仅使用一项损失函数,在不影响网络训练精度的同时可以同步优化循迹和重建结果。
S150:将非刚性动态目标的待重建RGB-D图像序列输入训练好的三维重建模型,利用训练好的三维重建模型输出非刚性动态目标的三维重建结果。
基于上述,本申请第二实施例的基于Transformer模型的三维重建方法利用单传感器获取非刚性动态目标的RGB-D图像序列,将RGB-D图像序列输入Transformer网络,Transformer网络使用时空结合的编码器直接编码包含时序信息和空间信息的RGB-D图像序列特征,使用点云解码器生成对齐的时序点云结果,根据所有时序点云结果组成非刚性动态目标的三维重建及循迹结果。本申请实施例不需要额外的数据转换,解决了原始数据难以对齐的问题,模型也不需要额外的约束和正则信息,可以解决现有技术中由于长时间建模造成的累积误差,在保证精确建模结果的同时简化了现有的任务优化建模方式。
请参阅图3,为本申请实施例的基于Transformer模型的三维重建方法装置结构示意图。本申请实施例的基于Transformer模型的三维重建方法装置40包括:
图像获取模块41:用于通过单传感器获取非刚性动态目标的RGB-D图像序列;
图像处理模块42:用于获取所述RGB-D图像序列中每幅RGB-D图像的三维点云数据,将所述三维点云数据和对应的RGB图像进行拼接,得到拼接图像序列;所述拼接图像序列中包括每幅RGB图像的RGB信息、三维点云数据的空间坐标信息以及时序信息;
三维重建模块43:用于将所述拼接图像序列输入训练好的三维重建模型,所述三维重建模型为Transformer网络,所述Transformer网络通过编码器同步编码所述拼接图像序列的时序信息和空间坐标信息,并通过解码器生成对齐的时序点云结果,根据所有时序点云结果生成所述非刚性动态目标的三维重建及循迹结果。
请参阅图4,为本申请实施例的设备结构示意图。该设备50包括:
存储有可执行程序指令的存储器51;
与存储器51连接的处理器52;
处理器52用于调用存储器51中存储的可执行程序指令并执行以下步骤:通过单传感器获取非刚性动态目标的RGB-D图像序列;获取所述RGB-D图像序列中每幅RGB-D图像的三维点云数据,将所述三维点云数据和对应的RGB图像进行拼接,得到拼接图像序列;所述拼接图像序列中包括每幅RGB图像的RGB信息、三维点云数据的空间坐标信息以及时序信息;将所述拼接图像序列输入训练好的三维重建模型,所述三维重建模型为Transformer网络,所述Transformer网络通过编码器同步编码所述拼接图像序列的时序信息和空间坐标信息,并通过解码器生成对齐的时序点云结果,根据所有时序点云结果生成所述非刚性动态目标的三维重建及循迹结果。
其中,处理器52还可以称为CPU(Central Processing Unit,中央处理单元)。处理器52可能是一种集成电路芯片,具有信号的处理能力。处理器52还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
请参阅图5,图5为本申请实施例的存储介质的结构示意图。本申请实施例的存储介质存储有能够实现以下步骤的程序指令61:通过单传感器获取非刚性动态目标的RGB-D图像序列;获取所述RGB-D图像序列中每幅RGB-D图像的三维点云数据,将所述三维点云数据和对应的RGB图像进行拼接,得到拼接图像序列;所述拼接图像序列中包括每幅RGB图像的RGB信息、三维点云数据的空间坐标信息以及时序信息;将所述拼接图像序列输入训练好的三维重建模型,所述三维重建模型为Transformer网络,所述Transformer网络通过编码器同步编码所述拼接图像序列的时序信息和空间坐标信息,并通过解码器生成对齐的时序点云结果,根据所有时序点云结果生成所述非刚性动态目标的三维重建及循迹结果。其中,该程序指令61可以以软件产品的形式存储在上述存储介质中,包括若干指令用以使得一台设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序指令的介质,或者是计算机、服务器、手机、平板等终端设备。其中,服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content DeliveryNetwork,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的系统实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。以上仅为本申请的实施方式,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (10)
1.一种基于Transformer模型的三维重建方法,其特征在于,包括:
通过单传感器获取非刚性动态目标的RGB-D图像序列;
获取所述RGB-D图像序列中每幅RGB-D图像的三维点云数据,将所述三维点云数据和对应的RGB图像进行拼接,得到拼接图像序列;所述拼接图像序列中包括每幅RGB图像的RGB信息、三维点云数据的空间坐标信息以及时序信息;
将所述拼接图像序列输入训练好的三维重建模型,所述三维重建模型为Transformer网络,所述Transformer网络通过编码器同步编码所述拼接图像序列的时序信息和空间坐标信息,并通过解码器生成对齐的时序点云结果,根据所有时序点云结果生成所述非刚性动态目标的三维重建及循迹结果。
2.根据权利要求1所述的基于Transformer模型的三维重建方法,其特征在于,所述获取所述RGB-D图像序列中每幅RGB-D图像的三维点云数据,将所述三维点云数据和对应的RGB图像进行拼接具体为:
使用实例分割CNN网络分割出所述RGB-D图像的感兴趣目标,并根据相机参数将所述RGB-D图像中的Depth图像映射到三维空间,得到对应的三维点云数据,将所述三维点云数据与RGB图像进行拼接,将拼接图像进行下采样后得到其维度为H×W×C×T,其中H和W分别为拼接图像的高和宽,C=6,包括所述拼接图像中RGB图像的二维RGB信息以及三维点云数据的空间坐标信息,T为RGB-D图像的帧数,用于表示每幅拼接图像的时序信息。
3.根据权利要求2所述的基于Transformer模型的三维重建方法,其特征在于,所述将所述拼接图像序列输入训练好的三维重建模型之前,还包括:
将所述拼接图像序列输入Transformer网络进行训练,所述Transformer网络通过编码器将所述拼接图像序列分解成设定数量的图像块,并使用自注意力机制同步编码每个图像块中包含的时序信息和空间坐标信息,并输出带有掩码的RGB-D图像序列,所述解码器结合编码器输出的掩码图像生成对齐的时序点云结果,根据所有时序点云结果组成非刚性动态目标的三维重建及循迹结果。
4.根据权利要求3所述的基于Transformer模型的三维重建方法,其特征在于,所述Transformer网络通过编码器将所述拼接图像序列分解成设定数量的图像块具体为:
将包含有三维点云数据和RGB图像的拼接图像分解为M=HW/P2个大小为P×P的不重叠图像块,将所述图像块展平后的向量x(p,t)线性嵌入成D维的嵌入向量:
上述公式中,xclass在序列首部表示一个可学习的嵌入,Epos表示编码每一个图像块的时空信息以获取位置信息,p=1,…M;t=1,…T。
5.根据权利要求4所述的基于Transformer模型的三维重建方法,其特征在于,所述使用自注意力机制同步编码每个图像块中包含的时序信息和空间坐标信息,并输出带有掩码的RGB-D图像序列具体为:
首先计算在相同的空间坐标不同时间的图像块的时间自注意力,然后计算在相同时间的不同空间坐标的图像块的空间自注意力:
上述公式中,所述Transformer网络包括L层模型块,l表示所述Transformer网络的第l层模型块,MSA表示多头自注意力,LN表示正则化;
所述编码器的每一层均使用多头自注意力和多层感知器编码特征信息,并在每一个计算块都使用残差连接,最后一个计算块的嵌入编码作为编码器的整体输出:
6.根据权利要求3至5任一项所述的基于Transformer模型的三维重建方法,其特征在于,所述解码器结合编码器输出的掩码图像生成对齐的时序点云结果,根据所有时序点云结果组成非刚性动态目标的三维重建及循迹结果具体为:
所述解码器为Transformer解码器结构,所述解码器的输入为N×D维度的可学习的点嵌入,将所述点嵌入与编码器获得的嵌入计算交叉熵,并在每一层并行解码,N表示重建的点云数量;解码后的嵌入通过多层感知机进行线性映射,并被解码为N×T×3维度的数据,各个T之间的点云差值即为循迹结果。
7.根据权利要求6所述的基于Transformer模型的三维重建方法,其特征在于,所述根据所有时序点云结果组成非刚性动态目标的三维重建及循迹结果之后,还包括:
根据所述三维重建及循迹结果计算损失函数,利用损失函数对所述Transformer网络进行优化,得到训练好的三维重建模型;所述损失函数计算公式为:
上述公式中,为优化参数,Mvalid为通过CNN网络获得的图像掩码,||2表示L2范数,Lmatch为预测点和真实值标签的匹配代价,t时刻和t+1时刻的空间三维点云位置Z一一对应,SF为t时刻和t+1时刻的点云差值,即为循迹数据。
8.一种基于Transformer模型的三维重建方法装置,其特征在于,包括:
图像获取模块:用于通过单传感器获取非刚性动态目标的RGB-D图像序列;
图像处理模块:用于获取所述RGB-D图像序列中每幅RGB-D图像的三维点云数据,将所述三维点云数据和对应的RGB图像进行拼接,得到拼接图像序列;所述拼接图像序列中包括每幅RGB图像的RGB信息、三维点云数据的空间坐标信息以及时序信息;
三维重建模块:用于将所述拼接图像序列输入训练好的三维重建模型,所述三维重建模型为Transformer网络,所述CTransformer网络通过编码器同步编码所述拼接图像序列的时序信息和空间坐标信息,并通过解码器生成对齐的时序点云结果,根据所有时序点云结果生成所述非刚性动态目标的三维重建及循迹结果。
9.一种设备,其特征在于,所述设备包括处理器、与所述处理器耦接的存储器,其中,
所述存储器存储有用于实现权利要求1-7任一项所述的基于Transformer模型的三维重建方法的程序指令;
所述处理器用于执行所述存储器存储的所述程序指令以控制基于Transformer模型的三维重建方法。
10.一种存储介质,其特征在于,存储有处理器可运行的程序指令,所述程序指令用于执行权利要求1至7任一项所述基于Transformer模型的三维重建方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310628840.1A CN116721207A (zh) | 2023-05-30 | 2023-05-30 | 基于Transformer模型的三维重建方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310628840.1A CN116721207A (zh) | 2023-05-30 | 2023-05-30 | 基于Transformer模型的三维重建方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116721207A true CN116721207A (zh) | 2023-09-08 |
Family
ID=87865275
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310628840.1A Pending CN116721207A (zh) | 2023-05-30 | 2023-05-30 | 基于Transformer模型的三维重建方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116721207A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117037120A (zh) * | 2023-10-09 | 2023-11-10 | 之江实验室 | 一种基于时序选择的目标感知方法及装置 |
CN117725966A (zh) * | 2024-02-18 | 2024-03-19 | 粤港澳大湾区数字经济研究院(福田) | 草图序列重建模型的训练方法、几何模型重建方法及设备 |
CN117893693A (zh) * | 2024-03-15 | 2024-04-16 | 南昌航空大学 | 一种密集slam三维场景重建方法及装置 |
-
2023
- 2023-05-30 CN CN202310628840.1A patent/CN116721207A/zh active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117037120A (zh) * | 2023-10-09 | 2023-11-10 | 之江实验室 | 一种基于时序选择的目标感知方法及装置 |
CN117037120B (zh) * | 2023-10-09 | 2024-02-09 | 之江实验室 | 一种基于时序选择的目标感知方法及装置 |
CN117725966A (zh) * | 2024-02-18 | 2024-03-19 | 粤港澳大湾区数字经济研究院(福田) | 草图序列重建模型的训练方法、几何模型重建方法及设备 |
CN117725966B (zh) * | 2024-02-18 | 2024-06-11 | 粤港澳大湾区数字经济研究院(福田) | 草图序列重建模型的训练方法、几何模型重建方法及设备 |
CN117893693A (zh) * | 2024-03-15 | 2024-04-16 | 南昌航空大学 | 一种密集slam三维场景重建方法及装置 |
CN117893693B (zh) * | 2024-03-15 | 2024-05-28 | 南昌航空大学 | 一种密集slam三维场景重建方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Lee et al. | From big to small: Multi-scale local planar guidance for monocular depth estimation | |
CN111047548B (zh) | 姿态变换数据处理方法、装置、计算机设备和存储介质 | |
CN116721207A (zh) | 基于Transformer模型的三维重建方法、装置、设备及存储介质 | |
Pearson | Developments in model-based video coding | |
CN110378838B (zh) | 变视角图像生成方法,装置,存储介质及电子设备 | |
CN110381268B (zh) | 生成视频的方法,装置,存储介质及电子设备 | |
CN112733795A (zh) | 人脸图像的视线矫正方法、装置、设备及存储介质 | |
CN113850900B (zh) | 三维重建中基于图像和几何线索恢复深度图的方法及系统 | |
CN115187638B (zh) | 一种基于光流遮罩的无监督单目深度估计方法 | |
CN113689539A (zh) | 基于隐式光流场的动态场景实时三维重建方法与装置 | |
CN113554039B (zh) | 基于多注意力机制的动态图像的光流图生成方法和系统 | |
CN114220154A (zh) | 一种基于深度学习的微表情特征提取与识别方法 | |
CN112184780A (zh) | 一种运动物体实例分割方法 | |
CN111462274A (zh) | 一种基于smpl模型的人体图像合成方法及系统 | |
CN111460876A (zh) | 用于识别视频的方法和装置 | |
CN111640172A (zh) | 一种基于生成对抗网络的姿态迁移方法 | |
CN113808005A (zh) | 一种基于视频驱动的人脸姿态迁移方法及装置 | |
CN117218246A (zh) | 图像生成模型的训练方法、装置、电子设备及存储介质 | |
KR20230150867A (ko) | 얼굴 표정, 신체 자세 형상 및 의류 퍼포먼스 캡처를 위해 암시적 구별가능 렌더러를 사용하는 멀티뷰 신경 사람 예측 | |
Yuan et al. | A novel deep pixel restoration video prediction algorithm integrating attention mechanism | |
Shih et al. | Video interpolation and prediction with unsupervised landmarks | |
US20230254230A1 (en) | Processing a time-varying signal | |
EP4164221A1 (en) | Processing image data | |
CN114998405A (zh) | 基于图像驱动的数字化人体模型构建方法 | |
CN116883524A (zh) | 图像生成模型训练、图像生成方法、装置和计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |