CN116206057A - 一种适用于终端设备的轻量级三维虚拟分身生成方法 - Google Patents
一种适用于终端设备的轻量级三维虚拟分身生成方法 Download PDFInfo
- Publication number
- CN116206057A CN116206057A CN202310061428.6A CN202310061428A CN116206057A CN 116206057 A CN116206057 A CN 116206057A CN 202310061428 A CN202310061428 A CN 202310061428A CN 116206057 A CN116206057 A CN 116206057A
- Authority
- CN
- China
- Prior art keywords
- image
- dimensional
- feature
- smpl
- level features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 20
- 238000009877 rendering Methods 0.000 claims abstract description 10
- 230000004927 fusion Effects 0.000 claims abstract description 7
- 230000037237 body shape Effects 0.000 claims abstract description 6
- 239000013598 vector Substances 0.000 claims description 28
- 238000012545 processing Methods 0.000 claims description 13
- 238000011176 pooling Methods 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 8
- 230000004931 aggregating effect Effects 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 4
- 241000282414 Homo sapiens Species 0.000 abstract description 10
- 238000005516 engineering process Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 206010044565 Tremor Diseases 0.000 description 1
- 230000003796 beauty Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/10—Image acquisition
- G06V10/16—Image acquisition using multiple overlapping images; Image stitching
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/766—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using regression, e.g. by projecting features on hyperplanes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Geometry (AREA)
- Computer Graphics (AREA)
- Human Computer Interaction (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Processing Or Creating Images (AREA)
Abstract
本发明公开了一种适用于终端设备的轻量级三维虚拟分身生成方法,利用手机摄像头实时采集当前用户的图像信息,对图像进行预处理,将大小裁剪至256×256并完成标准化;利用双分支网络分别提取图像的低级特征与高级特征,并完成特征融合,进而对图像进行不同粒度地刻画;采用回归模块分别输出SMPL人体模型的身体形状参数,进而恢复出三维人体模型;利用三维渲染工具,得到三维模型在相机视角K下的二维图像,并输出至用户屏幕。本发明使得用户可以通过智能手机等嵌入式设备快速地在元宇宙中创建一个自己的虚拟分身。
Description
技术领域
本发明属于深度学习技术领域,具体涉及一种轻量级三维虚拟分身生成方法。
背景技术
随着元宇宙时代的到来,越来越多的公司、科研机构开始尝试利用VR和AR等技术,尝试为虚拟世界与现实世界建立桥梁。虚拟人是元宇宙的重要组成部分。虚拟人又称数字人,指利用计算机上模拟出一个类似真人的虚拟人形象。据《2020年虚拟数字人发展白皮书》描述,虚拟数字人具备三大特征:一是拥有人的外观及性格特征;二是拥有通过语言、表情或肢体动作表达的能力;三是拥有识别外界环境、与人交流互动的能力。虚拟人可以和真人自然交互,能够为用户提供丰富的创作内容,并带来极致的沉浸式体验,甚至可能摆脱虚拟形象限制,呈现出虚拟世界与现实世界相互映射的一种可能性。在元宇宙的热潮之下,虚拟数字人也来到了爆发前夕。从清华虚拟女学霸华智冰、抖音美妆达人柳夜熙、再到阿里冬冬和每经AI虚拟主播……从虚拟偶像到虚拟主播,从演唱会到商业代言,从电商带货到医疗、教育服务等,虚拟人的商业应用场景正在越来越丰富。
传统的三维虚拟形象塑造方法涉及大量的手工作业,首先需要利用3D建模软件对人物进行建模,其次为了使人物形象动起来,需要对3D模型绑定人物骨骼系统,并利用动作捕捉技术来驱动人体运动。随着深度学习技术以及三维重建技术的发展,已经诸多的方法可以利用少量的二维图片较为准确得还原出人物的3D模型,如PiFu、Human Nerf等。然而这样方法依赖强大的GPU资源,受限于模型的复杂性,导致虚拟人技术并未广泛得走进人们的生活。
发明内容
为了克服现有技术的不足,本发明提供了一种适用于终端设备的轻量级三维虚拟分身生成方法,利用手机摄像头实时采集当前用户的图像信息,对图像进行预处理,将大小裁剪至256×256并完成标准化;利用双分支网络分别提取图像的低级特征与高级特征,并完成特征融合,进而对图像进行不同粒度地刻画;采用回归模块分别输出SMPL人体模型的身体形状参数,进而恢复出三维人体模型;利用三维渲染工具,得到三维模型在相机视角K下的二维图像,并输出至用户屏幕。本发明使得用户可以通过智能手机等嵌入式设备快速地在元宇宙中创建一个自己的虚拟分身。
本发明解决其技术问题所采用的技术方案包括如下步骤:
步骤1:利用摄像头捕获用户的全身RGB图像;
步骤2:对步骤1获取的图像预处理,包括:(1)将图像的分辨率调整至A×A,(2)再进行标准化处理;
步骤3:低级特征提取:对预处理后的图像进行下采样,提取图像的低级特征Cl;其中下采样部分包含三个卷积层,第一层是一个卷积层Conv2D,其它两个层则为深度可分离卷积层DSConv,卷积核大小均为3×3,步长为2;
步骤4:高级特征提取:在低级特征的基础上,采用高级特征提取器进一步获得图像的全局上下文信息Ch;高级特征提取器包含3层瓶颈残差模块和一个金字塔池化层,瓶颈残差模块用于进一步提取深层信息,金字塔池化层用于聚合不同区域的上下文信息;
步骤5:特征融合:对高级特征进行双线性插值处理,获得与低级特征维度的一致的特征向量;相加低级特征Cl与高级特征Ch得到融合后的特征向量C′:
C′=Cl+Ch
采用一层瓶颈层对融合后的向量进一步处理,并进行平均池化,得到最终的A维图像特征向量C;
步骤7:回归SMPL参数:将特征向量C分别与β、θ、K进行拼接,进行3步回归,进而得到最终的β、θ以及K:
β=f2(βc)+β
θ=f2(θc)+θ
K=f2(Kc)+K
步骤8:根据参数θ、β,恢复出SMPL三维模型的6890个顶点:
Nv=SMPL(θ,β)
步骤9:利用Sim3DR渲染工具对三维模型进行渲染,得到三维模型在相机视角K下的二维图像,并输出至用户屏幕:
I′=render(Nv,K)
优选地,所述A=256。
本发明的有益效果如下:
本发明的网络参数量仅为3.231M,而以Resnet50为基础网络的HMR算法的网络参数量为26.978M。相比较于HMR算法,本发明极大的减少了网络的参数量,因此在CPU上推理一张图片的运行时间仅需67.59ms。本发明在轻量化的同时,仍然能保持较好的人体重建性能,
附图说明
图1为本发明方法模型图。
图2为本发明实施例人体重建的效果图。
具体实施方式
下面结合附图和实施例对本发明进一步说明。
本发明基于以下原理:双分支网络在不同的分辨率下对图像进行编码,可以在保持精度的同时减少计算量:(1)深层次的网络采用小的分辨率图像作为输入,用较深的网络来提取全局上下文信息;(2)浅层的网络采用大的分辨率图像作为输入,用来捕捉输入图像的空间细节信息与边缘信息;(3)最终的图像特征表示为两个支路的结果融合,进而帮助模型更加有效地理解人体图像。
如图1所示,一种适用于终端设备的轻量级三维虚拟形象生成,包括以下步骤:
步骤1:利用手机摄像头捕获用户的全身RGB图像。
步骤2:输入图像预处理,包括:(1)将图像的分辨率调整至256×256,(2)对裁剪后的图像进行标准化处理。
步骤3:低级特征提取:对预处理后的图像进行下采样,目的是在高分辨下提取图像的低级特征Cl。其中下采样部分包含三个卷积层,第一层是一个标准的卷积层(Conv2D),其它两个层则为深度可分离卷积层(DSConv),卷积核大小均为3×3,步长为2。
步骤4:高级特征提取:在低级特征的基础上,进一步获得图像的全局上下文信息Ch。高级特征提取器包含3层瓶颈残差模块(Linear Bottleneck)和一个金字塔池化层,瓶颈层用于进一步提取深层信息,金字塔池化层用以聚合不同区域的上下文信息。
步骤5:特征融合:首先,为保证向量维度一致,对高级特征进行双线性插值处理,获得与低级特征维度的一致的特征向量;其次,相加低级特征Cl与高级特征Ch得到融合后的特征向量C′:
C′=Cl+Ch
最后,采用一层瓶颈层(Linear Bottleneck)对融合后的向量进一步处理,并进行平均池化,得到最终的256维图像特征向量C。
步骤7:回归SMPL参数:将特征向量C分别与β、θ、K进行拼接,进行3步回归,进而得到最终的β、θ以及K:
β=f2(βc)+β
θ=f2(θc)+θ
K=f2(Kc)+K
步骤8:根据参数θ,β,恢复出SMPL三维模型的6890个顶点:
Nv=SMPL(θ,β)
步骤9:利用Sim3DR渲染工具对三维模型进行渲染,得到三维模型在相机视角K下的二维图像,并输出至用户屏幕:
I′=render(Nv,K)
具体实施例:
1、利用手机摄像头捕获用户的全身RGB图像。
2、输入图像预处理,包括:(1)将图像的分辨率调整至256×256,(2)对裁剪后的图像进行标准化处理。
3、低级特征提取:对预处理后的图像进行下采样,目的是在高分辨下提取图像的低级特征Cl。其中下采样部分包含三个卷积层,第一层是一个标准的卷积层(Conv2D),其它两个层则为深度可分离卷积层(DSConv),卷积核大小均为3×3,步长为2。
4、高级特征提取:在低级特征的基础上,进一步获得图像的全局上下文信息Ch。高级特征提取器包含3层瓶颈残差模块(Linear Bottleneck)和一个金字塔池化层,瓶颈层用于进一步提取深层信息,金字塔池化层用以聚合不同区域的上下文信息。
5、特征融合:首先,为保证向量维度一致,对高级特征进行双线性插值处理,获得与低级特征维度的一致的特征向量;其次,相加低级特征Cl与高级特征Ch得到融合后的特征向量C′:
C′=Cl+Ch
最后,采用一层瓶颈层(Linear Bottleneck)对融合后的向量进一步处理,并进行平均池化,得到最终的256维图像特征向量C。
7、回归SMPL参数:将特征向量C分别与β、θ、K进行拼接,进行3步回归,进而得到最终的β、θ以及K:
β=f2(βc)+β
θ=f2(θc)+θ
K=f2(Kc)+K
8、根据参数θ,β,恢复出SMPL三维模型的6890个顶点:
Nv=SMPL(θ,β)
9、利用Sim3DR渲染工具对三维模型进行渲染,得到三维模型在相机视角K下的二维图像,并输出至用户屏幕:
I′=render(Nv,K)。
如图2为人体重建的效果图。
Claims (2)
1.一种适用于终端设备的轻量级三维虚拟分身生成方法,其特征在于,包括以下步骤:
步骤1:利用摄像头捕获用户的全身RGB图像;
步骤2:对步骤1获取的图像预处理,包括:(1)将图像的分辨率调整至A×A,(2)再进行标准化处理;
步骤3:低级特征提取:对预处理后的图像进行下采样,提取图像的低级特征Cl;其中下采样部分包含三个卷积层,第一层是一个卷积层Conv2D,其它两个层则为深度可分离卷积层DSConv,卷积核大小均为3×3,步长为2;
步骤4:高级特征提取:在低级特征的基础上,采用高级特征提取器进一步获得图像的全局上下文信息Ch;高级特征提取器包含3层瓶颈残差模块和一个金字塔池化层,瓶颈残差模块用于进一步提取深层信息,金字塔池化层用于聚合不同区域的上下文信息;
步骤5:特征融合:对高级特征进行双线性插值处理,获得与低级特征维度的一致的特征向量;相加低级特征Cl与高级特征Ch得到融合后的特征向量C′:
C′=Cl+Ch
采用一层瓶颈层对融合后的向量进一步处理,并进行平均池化,得到最终的A维图像特征向量C;
步骤7:回归SMPL参数:将特征向量C分别与β、θ、K进行拼接,进行3步回归,进而得到最终的β、θ以及K:
β=f2(βc)+β
θ=f2(θc)+θ
K=f2(Kc)+K
步骤8:根据参数θ、β,恢复出SMPL三维模型的6890个顶点:
Nv=SMPL(θ,β)
步骤9:利用Sim3DR渲染工具对三维模型进行渲染,得到三维模型在相机视角K下的二维图像,并输出至用户屏幕:
I′=render(Nv,K)。
2.根据权利要求1所述的一种适用于终端设备的轻量级三维虚拟分身生成方法,其特征在于,所述A=256。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310061428.6A CN116206057A (zh) | 2023-01-14 | 2023-01-14 | 一种适用于终端设备的轻量级三维虚拟分身生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310061428.6A CN116206057A (zh) | 2023-01-14 | 2023-01-14 | 一种适用于终端设备的轻量级三维虚拟分身生成方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116206057A true CN116206057A (zh) | 2023-06-02 |
Family
ID=86516626
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310061428.6A Pending CN116206057A (zh) | 2023-01-14 | 2023-01-14 | 一种适用于终端设备的轻量级三维虚拟分身生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116206057A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116400675A (zh) * | 2023-06-09 | 2023-07-07 | 西南交通大学 | 基于改进cnn-lstm模型的故障诊断系统及方法 |
-
2023
- 2023-01-14 CN CN202310061428.6A patent/CN116206057A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116400675A (zh) * | 2023-06-09 | 2023-07-07 | 西南交通大学 | 基于改进cnn-lstm模型的故障诊断系统及方法 |
CN116400675B (zh) * | 2023-06-09 | 2023-09-15 | 西南交通大学 | 基于改进cnn-lstm模型的故障诊断系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111696028A (zh) | 真实场景图像卡通化的处理方法、装置、计算机设备和存储介质 | |
US20130101164A1 (en) | Method of real-time cropping of a real entity recorded in a video sequence | |
KR20200055841A (ko) | 기계 학습을 위한 학습 데이터 셋 생성 장치 및 방법 | |
CN113272870A (zh) | 用于逼真的实时人像动画的系统和方法 | |
KR102353556B1 (ko) | 사용자 얼굴기반 표정 및 포즈 재현 아바타 생성장치 | |
CN113344777B (zh) | 基于三维人脸分解的换脸与重演方法及装置 | |
CN110796593A (zh) | 基于人工智能的图像处理方法、装置、介质及电子设备 | |
CN114821675B (zh) | 对象的处理方法、系统和处理器 | |
CN112818860B (zh) | 基于端到端多任务多尺度神经网络的实时三维人脸重建方法 | |
CN117496072B (zh) | 一种三维数字人生成和交互方法及系统 | |
NZ551124A (en) | Dynamic Wrinkle mapping | |
CN116206057A (zh) | 一种适用于终端设备的轻量级三维虚拟分身生成方法 | |
US20230230304A1 (en) | Volumetric capture and mesh-tracking based machine learning 4d face/body deformation training | |
CN111640172A (zh) | 一种基于生成对抗网络的姿态迁移方法 | |
CN111833360A (zh) | 一种图像处理方法、装置、设备以及计算机可读存储介质 | |
CN115100707A (zh) | 模型的训练方法、视频信息生成方法、设备以及存储介质 | |
Yan et al. | Video face swap based on autoencoder generation network | |
CN117115331B (zh) | 一种虚拟形象的合成方法、合成装置、设备及介质 | |
CN115222899B (zh) | 虚拟数字人生成方法、系统、计算机设备及存储介质 | |
CN117237188A (zh) | 基于遥感图像的多尺度注意网络的显著性目标检测方法 | |
JPH1074271A (ja) | 3次元似顔作成方法および装置 | |
CN116977169A (zh) | 数据处理方法、装置、设备、可读存储介质及程序产品 | |
CN116703719A (zh) | 一种基于人脸3d先验信息的人脸超分辨率重建装置及方法 | |
WO2024055211A1 (zh) | 基于NeRF多景层结合的三维视频重建方法及系统 | |
CN113763536A (zh) | 一种基于rgb图像的三维重建方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |