CN116630545A - 一种面向多视角rgb图像数据融合的三维人体重建方法 - Google Patents
一种面向多视角rgb图像数据融合的三维人体重建方法 Download PDFInfo
- Publication number
- CN116630545A CN116630545A CN202310651903.5A CN202310651903A CN116630545A CN 116630545 A CN116630545 A CN 116630545A CN 202310651903 A CN202310651903 A CN 202310651903A CN 116630545 A CN116630545 A CN 116630545A
- Authority
- CN
- China
- Prior art keywords
- image data
- human body
- view
- global
- grid
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 230000004927 fusion Effects 0.000 title claims abstract description 38
- 238000012549 training Methods 0.000 claims abstract description 25
- 239000013598 vector Substances 0.000 claims abstract description 20
- 230000008569 process Effects 0.000 claims abstract description 19
- 238000005070 sampling Methods 0.000 claims abstract description 5
- 230000000007 visual effect Effects 0.000 claims abstract description 5
- 238000000605 extraction Methods 0.000 claims description 6
- 230000007246 mechanism Effects 0.000 claims description 5
- 238000002372 labelling Methods 0.000 claims description 2
- 230000006870 function Effects 0.000 description 6
- 210000000988 bone and bone Anatomy 0.000 description 4
- 238000010586 diagram Methods 0.000 description 2
- 238000004880 explosion Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/42—Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20092—Interactive image processing based on input by user
- G06T2207/20104—Interactive definition of region of interest [ROI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20112—Image segmentation details
- G06T2207/20132—Image cropping
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Computational Linguistics (AREA)
- Computer Graphics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Geometry (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种面向多视角RGB图像数据融合的三维人体重建方法,包括训练过程和重建过程,训练过程为:S1、在原始多视角图像数据中裁剪得到仅包含感兴趣的身体部位区域;S2、对不同视角的图像数据分别进行全局特征和局部特征的提取;S3、全局整合各视角图像数据的全局特征,融合得到全局特征向量;S4、将步骤S3中得到的全局特征向量和步骤S2中得到的各视角图像数据的局部特征输入到融合Transformer网络结构中,得到粗糙网格,对粗糙网格上采样得到重建的三维人体网格,将损失函数应用于重建的网格以约束顶点和关节,从而完成训练。重建过程与训练过程类似。本发明方法适用于各种需要使用多视角图像融合数据的场景。
Description
技术领域
本发明涉及计算机视觉领域,尤其是涉及一种面向多视角RGB图像数据融合的三维人体重建方法。
背景技术
三维人体重建方法可以作为三维感知方法的一部分,因为人体是三维世界中的主要元素之一。人体的位置、形状、姿态和动作等信息对于很多应用都是非常重要的,比如虚拟现实、智能监控、医学诊断等领域。通过三维人体重建方法,可以从图像、视频、深度相机等传感器数据中获取人体的三维位置、形状和运动信息,从而实现对人体的三维感知。
传感器技术和深度学习的最新进展使得三维人体重建方法取得了重大进展。然而,大多数现有方法都依赖于单视角RGB图像。由于缺乏深度信息,且可能存在遮挡,因此基于单视角RGB图像的三维人体重建缺乏可靠性。
发明内容
本发明主要是解决现有技术所存在的只能基于单视角图像进行三维人体重建、可靠性不足等的技术问题,提供一种具有较高可靠性的面向多视角RGB图像数据融合的三维人体重建方法。
本发明针对上述技术问题主要是通过下述技术方案得以解决的:一种面向多视角RGB图像数据融合的三维人体重建方法,包括训练过程和重建过程,所述训练过程具体为:
S1、在原始多视角图像数据中裁剪得到仅包含感兴趣的身体部位区域;训练时裁剪对象为训练集中的原始多视角图像数据;原始多视角图像数据为包含骨骼真值的数据,训练集包含三维人体网格的真实值;
S2、对不同视角的图像数据分别进行全局特征和局部特征的提取;
S3、全局整合各视角图像数据的全局特征,融合得到全局特征向量;
S4、将步骤S3中得到的全局特征向量和步骤S2中得到的各视角图像数据的局部特征输入到融合Transformer网络结构中,得到粗糙网格,对粗糙网格上采样得到重建的三维人体网格,将损失函数应用于重建的三维人体网格以约束顶点和关节点,从而完成训练;
所述重建过程具体为:
依照步骤S1到步骤S3对重建集中的原始多视角图像数据进行裁剪、全局特征和局部特征提取以及融合得到全局特征向量,然后将全局特征向量和局部特征输入到训练后的融合Transformer网络结构并对输出的粗糙网格上采样,得到重建的三维人体网格。
作为优选,所述步骤S4中,损失函数为:
式中,n为样本数量,yi为人体三维网格的真实值,f(xi)为人体三维网格的预测值。损失函数可以避免梯度爆炸的问题。
作为优选,所述步骤S1具体为:
使用边界框算法标注裁剪图像数据中人体网格关节点的真实值,得到仅包含目标身体部位区域;裁剪后得到的数据集为D={Ii},i=1,…,M,M为视角的数量,Ii∈ℝ224×224×3是裁取出目标身体部分在视角i下的RGB图像。
边界框算法采用常规的bounding box算法,可以依据骨骼真值自动完成对图像数据的标注和裁剪,空心字母ℝ表示域。
作为优选,所述步骤S2具体为:
S201、使用HRNet网络从RGB图像Ii中提取梯度特征Li∈ℝn×m和全局特征Gi∈ℝ2048,其中n为梯度特征Li的通道数,m为梯度特征Li的特征维度;
S202、将梯度特征Li输入多层感知器,获得局部特征。多层感知器为MLP网络。
作为优选,所述步骤S3具体为:
S301、将各视角的全局特征Gi输入到具有三层注意力机制的第一transformer结构,对所有输出结果进行和运算,得到初步全局特征向量;
S302、对SMPL-X模型进行降采样,SMPL-X模型由初始化的人体模板的22个固定关节点位置和10475个固定顶点位置构成,将10475个固定顶点精简为655个,得到由22个固定关节点和655个精简顶点构成的模板,将此模板中关节和顶点三维坐标与整合全局特征相拼接,得到全局特征向量GT。
本发明带来的实质性效果是,提出一种多视角RGB图像数据融合下的三维人体重建方法,可以实现对三维人体模型的准确重建,克服了传统方法单视角图像的局限性,获得更加可靠的结果,适用于多视角下的三维人体重建。
附图说明
图1是本发明的一种训练过程流程图;
图2是本发明的一种人体重建网络模型结构示意图。
具体实施方式
下面通过实施例,并结合附图,对本发明的技术方案作进一步具体的说明。
实施例:如图2所示为面向多视角RGB图像数据融合的三维人体重建方法的网络模型结构示意图。本结构旨在有效地利用全局和局部级别的多视角RGB图像信息来预测人体网格信息。算法具体流程如下所示,给定多视角RGB图像信息,每个视角RGB图像的全局特征和局部特征首先分别由相应的主干提取。接下来,全局集成模块第一transformer将所有视角RGB图像的全局特征合并为一个全局特征,并将降采样后的SMPL-X模板嵌入其中得到全局特征向量。然后,将所有全局特征和局部特征标记化为多层融合转换器的输入,用来动态融合所有模态的信息并直接回归到三维人体关节点和粗糙网格顶点的坐标。由于Transformer对任意数量的输入都具有适应性,全局集成模块和多层融合转换器模块可以自适应地处理任何输入特征组合,包括仅输入单视角图像数据的情况。最后使用多层感知器将粗糙网格顶点上采样到完整的SMPL-X网格顶点。 具体方法如下:
一种面向多视角RGB图像数据融合的三维人体重建方法,包括训练过程和重建过程,如图1所示,所述训练过程具体为:
S1、在原始多视角图像数据中裁剪得到仅包含感兴趣的身体部位区域;训练时裁剪对象为训练集中的原始多视角图像数据;原始多视角图像数据为包含骨骼真值的数据,训练集包含三维人体网格的真实值;
S2、对不同视角的图像数据分别进行全局特征和局部特征的提取;
S3、全局整合各视角图像数据的全局特征,融合得到全局特征向量;
S4、将步骤S3中得到的全局特征向量和步骤S2中得到的各视角图像数据的局部特征输入到融合Transformer网络结构中,得到粗糙网格,对粗糙网格上采样得到重建的三维人体网格,将损失函数应用于重建的三维人体网格以约束顶点和关节点,从而完成训练;
所述重建过程具体为:
依照步骤S1到步骤S3对重建集中的原始多视角图像数据进行裁剪、全局特征和局部特征提取以及融合得到全局特征向量,然后将全局特征向量和局部特征输入到训练后的融合Transformer网络结构并对输出的粗糙网格上采样,得到重建的三维人体网格。
所述步骤S4中,损失函数为:
式中,n为样本数量,yi为人体三维网格的真实值,f(xi)为人体三维网格的预测值。损失函数可以避免梯度爆炸的问题。
本方案训练时针对每个场景选择训练集和测试集,为了更好地激发模型对各个模态的潜力,其中训练集随机分成多个部分。
所述步骤S1具体为:
使用边界框算法标注裁剪图像数据中人体网格关节点的真实值,得到仅包含目标身体部位区域;裁剪后得到的数据集为D={Ii},i=1,…,M,M为视角的数量,Ii∈ℝ224×224×3是裁取出目标身体部分在视角i下的RGB图像。
边界框算法采用常规的bounding box算法,可以依据骨骼真值自动完成对图像数据的标注和裁剪。
所述步骤S2具体为:
S201、使用HRNet网络从RGB图像Ii中提取梯度特征Li∈ℝn×m和全局特征Gi∈ℝ2048,其中n为梯度特征Li的通道数,m为梯度特征Li的特征维度;
S202、将梯度特征Li输入多层感知器,获得局部特征。多层感知器为MLP网络。
所述步骤S3具体为:
S301、将各视角的全局特征Gi输入到具有三层注意力机制的第一transformer结构,对所有输出结果进行和运算,得到初步全局特征向量;
S302、对SMPL-X模型进行降采样,SMPL-X模型由初始化的人体模板的22个固定关节点位置和10475个固定顶点位置构成,将10475个固定顶点精简为655个,得到由22个固定关节点和655个精简顶点构成的模板,将此模板中关节和顶点三维坐标与整合全局特征相拼接,得到全局特征向量GT。
实际重建时,先利用融合Transformer网络结构从任意视角RGB图像生成的全局和局部特征中选择信息性标记特征来动态融合信息,即融合Transformer网络在关注有效特征并限制不需要的特征的同时,采用关节点/顶点查询GT和视角标记之间的交叉注意(cross attention),以融合多视角图像输入的相关信息,其中GT由全局特征生成,视角标记由局部特征生成。
然后使用多层感知器实现的线性投影网络对上一步得到的粗糙网格上采样,得到最终重建出的人体网格,以便对人体姿态、形状等特征进行进一步分析和处理。
本发明采用以下技术手段以减轻由于RGB或深度信息的不足而导致的特征退化:在融合Transformer中使用多头注意力机制来混合两种不同嵌入序列,对输入的不同视角的RGB图像数据进行特征提取,以提高人体重建的准确性和鲁棒性;同时,通过使用多头注意力机制,使其能够适应在极端条件下的数据融合需求,例如低光照、噪声等情况下的图像融合。
综合比较来说,本发明方法,即对面向多视角RGB图像数据融合需求的三维人体重建方法来说,在人体重建的研究领域对于其他现有的重建方法来说结果方面的优势明显,可以考虑用于需要多视角图像数据融合的其他任务。
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。
尽管本文较多地使用了局部特征、全局特征、顶点等术语,但并不排除使用其它术语的可能性。使用这些术语仅仅是为了更方便地描述和解释本发明的本质;把它们解释成任何一种附加的限制都是与本发明精神相违背的。
Claims (5)
1.一种面向多视角RGB图像数据融合的三维人体重建方法,其特征在于,包括训练过程和重建过程,所述训练过程具体为:
S1、在原始多视角图像数据中裁剪得到仅包含感兴趣的身体部位区域;训练时裁剪对象为训练集中的原始多视角图像数据;
S2、对不同视角的图像数据分别进行全局特征和局部特征的提取;
S3、全局整合各视角图像数据的全局特征,融合得到全局特征向量;
S4、将步骤S3中得到的全局特征向量和步骤S2中得到的各视角图像数据的局部特征输入到融合Transformer网络结构中,得到粗糙网格,对粗糙网格上采样得到重建的三维人体网格,将损失函数应用于重建的三维人体网格以约束顶点和关节点,从而完成训练;
所述重建过程具体为:
依照步骤S1到步骤S3对重建集中的原始多视角图像数据进行裁剪、全局特征和局部特征提取以及融合得到全局特征向量,然后将全局特征向量和局部特征输入到训练后的融合Transformer网络结构并对输出的粗糙网格上采样,得到重建的三维人体网格。
2.根据权利要求1所述的一种面向多视角RGB图像数据融合的三维人体重建方法,其特征在于,所述步骤S4中,损失函数为:
式中,n为样本数量,yi为人体三维网格的真实值,f(xi)为人体三维网格的预测值。
3.根据权利要求1或2所述的一种面向多视角RGB图像数据融合的三维人体重建方法,其特征在于,所述步骤S1具体为:
使用边界框算法标注裁剪图像数据中人体网格关节点的真实值,得到仅包含目标身体部位区域;裁剪后得到的数据集为D={Ii},i=1,…,M,M为视角的数量,Ii∈ℝ224×224×3是裁取出目标身体部分在视角i下的RGB图像。
4.根据权利要求3所述的一种面向多视角RGB图像数据融合的三维人体重建方法,其特征在于,所述步骤S2具体为:
S201、使用HRNet网络从RGB图像Ii中提取梯度特征Li∈ℝn×m和全局特征Gi∈ℝ2048,其中n为梯度特征Li的通道数,m为梯度特征Li的特征维度;
S202、将梯度特征Li输入多层感知器,获得局部特征。
5.根据权利要求4所述的一种面向多视角RGB图像数据融合的三维人体重建方法,其特征在于,所述步骤S3具体为:
S301、将各视角的全局特征Gi输入到具有三层注意力机制的第一transformer结构,对所有输出结果进行和运算,得到整合全局特征;
S302、对SMPL-X模型进行降采样,SMPL-X模型由初始化的人体模板的22个固定关节点位置和10475个固定顶点位置构成,将10475个固定顶点精简为655个,得到由22个固定关节点和655个精简顶点构成的模板,将此模板中关节和顶点三维坐标与整合全局特征相拼接,得到全局特征向量GT。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310651903.5A CN116630545A (zh) | 2023-06-05 | 2023-06-05 | 一种面向多视角rgb图像数据融合的三维人体重建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310651903.5A CN116630545A (zh) | 2023-06-05 | 2023-06-05 | 一种面向多视角rgb图像数据融合的三维人体重建方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116630545A true CN116630545A (zh) | 2023-08-22 |
Family
ID=87590554
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310651903.5A Pending CN116630545A (zh) | 2023-06-05 | 2023-06-05 | 一种面向多视角rgb图像数据融合的三维人体重建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116630545A (zh) |
-
2023
- 2023-06-05 CN CN202310651903.5A patent/CN116630545A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110674829B (zh) | 一种基于图卷积注意网络的三维目标检测方法 | |
CN111968217B (zh) | 基于图片的smpl参数预测以及人体模型生成方法 | |
CN110570522B (zh) | 一种多视图三维重建方法 | |
CN113283525B (zh) | 一种基于深度学习的图像匹配方法 | |
CN113191953A (zh) | 一种基于Transformer的人脸图像超分辨的方法 | |
CN110188802B (zh) | 基于多层特征图融合的ssd目标检测算法 | |
CN110738200A (zh) | 车道线3d点云地图构建方法、电子设备及存储介质 | |
US20110001791A1 (en) | Method and system for generating and displaying a three-dimensional model of physical objects | |
CN113870160B (zh) | 一种基于变换器神经网络的点云数据处理方法 | |
CN114863061A (zh) | 一种远程监护医学图像处理的三维重建方法及系统 | |
CN116993926B (zh) | 单视图人体三维重建方法 | |
CN112686830B (zh) | 基于图像分解的单一深度图的超分辨率方法 | |
CN114283152A (zh) | 图像处理、图像处理模型的训练方法、装置、设备及介质 | |
CN117094895B (zh) | 图像全景拼接方法及其系统 | |
CN116342675B (zh) | 一种实时单目深度估计方法、系统、电子设备及存储介质 | |
CN116258756B (zh) | 一种自监督单目深度估计方法及系统 | |
CN116246142A (zh) | 一种面向多传感器数据融合需求的三维场景感知方法 | |
CN116843867A (zh) | 增强现实虚实融合方法、电子设备和存储介质 | |
CN116385845A (zh) | 一种基于bev的多摄像机3d目标检测的深度学习算法 | |
CN116630545A (zh) | 一种面向多视角rgb图像数据融合的三维人体重建方法 | |
CN113593007B (zh) | 一种基于变分自编码的单视图三维点云重建方法及系统 | |
CN114693951A (zh) | 一种基于全局上下文信息探索的rgb-d显著性目标检测方法 | |
Wang et al. | H2gformer: Horizontal-to-global voxel transformer for 3d semantic scene completion | |
CN118071955B (zh) | 一种基于Three.JS实现三维地图埋点方法 | |
CN110148086A (zh) | 稀疏深度图的深度补齐方法、装置及三维重建方法、装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |