CN116206057A - 一种适用于终端设备的轻量级三维虚拟分身生成方法 - Google Patents

一种适用于终端设备的轻量级三维虚拟分身生成方法 Download PDF

Info

Publication number
CN116206057A
CN116206057A CN202310061428.6A CN202310061428A CN116206057A CN 116206057 A CN116206057 A CN 116206057A CN 202310061428 A CN202310061428 A CN 202310061428A CN 116206057 A CN116206057 A CN 116206057A
Authority
CN
China
Prior art keywords
image
dimensional
feature
smpl
level features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310061428.6A
Other languages
English (en)
Inventor
郭斌
王柱
冯煦阳
邱晨
於志文
陈梦琦
刘思聪
梁韵基
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Original Assignee
Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University filed Critical Northwestern Polytechnical University
Priority to CN202310061428.6A priority Critical patent/CN116206057A/zh
Publication of CN116206057A publication Critical patent/CN116206057A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • G06V10/16Image acquisition using multiple overlapping images; Image stitching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/766Arrangements for image or video recognition or understanding using pattern recognition or machine learning using regression, e.g. by projecting features on hyperplanes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Geometry (AREA)
  • Computer Graphics (AREA)
  • Human Computer Interaction (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明公开了一种适用于终端设备的轻量级三维虚拟分身生成方法,利用手机摄像头实时采集当前用户的图像信息,对图像进行预处理,将大小裁剪至256×256并完成标准化;利用双分支网络分别提取图像的低级特征与高级特征,并完成特征融合,进而对图像进行不同粒度地刻画;采用回归模块分别输出SMPL人体模型的身体形状参数,进而恢复出三维人体模型;利用三维渲染工具,得到三维模型在相机视角K下的二维图像,并输出至用户屏幕。本发明使得用户可以通过智能手机等嵌入式设备快速地在元宇宙中创建一个自己的虚拟分身。

Description

一种适用于终端设备的轻量级三维虚拟分身生成方法
技术领域
本发明属于深度学习技术领域,具体涉及一种轻量级三维虚拟分身生成方法。
背景技术
随着元宇宙时代的到来,越来越多的公司、科研机构开始尝试利用VR和AR等技术,尝试为虚拟世界与现实世界建立桥梁。虚拟人是元宇宙的重要组成部分。虚拟人又称数字人,指利用计算机上模拟出一个类似真人的虚拟人形象。据《2020年虚拟数字人发展白皮书》描述,虚拟数字人具备三大特征:一是拥有人的外观及性格特征;二是拥有通过语言、表情或肢体动作表达的能力;三是拥有识别外界环境、与人交流互动的能力。虚拟人可以和真人自然交互,能够为用户提供丰富的创作内容,并带来极致的沉浸式体验,甚至可能摆脱虚拟形象限制,呈现出虚拟世界与现实世界相互映射的一种可能性。在元宇宙的热潮之下,虚拟数字人也来到了爆发前夕。从清华虚拟女学霸华智冰、抖音美妆达人柳夜熙、再到阿里冬冬和每经AI虚拟主播……从虚拟偶像到虚拟主播,从演唱会到商业代言,从电商带货到医疗、教育服务等,虚拟人的商业应用场景正在越来越丰富。
传统的三维虚拟形象塑造方法涉及大量的手工作业,首先需要利用3D建模软件对人物进行建模,其次为了使人物形象动起来,需要对3D模型绑定人物骨骼系统,并利用动作捕捉技术来驱动人体运动。随着深度学习技术以及三维重建技术的发展,已经诸多的方法可以利用少量的二维图片较为准确得还原出人物的3D模型,如PiFu、Human Nerf等。然而这样方法依赖强大的GPU资源,受限于模型的复杂性,导致虚拟人技术并未广泛得走进人们的生活。
发明内容
为了克服现有技术的不足,本发明提供了一种适用于终端设备的轻量级三维虚拟分身生成方法,利用手机摄像头实时采集当前用户的图像信息,对图像进行预处理,将大小裁剪至256×256并完成标准化;利用双分支网络分别提取图像的低级特征与高级特征,并完成特征融合,进而对图像进行不同粒度地刻画;采用回归模块分别输出SMPL人体模型的身体形状参数,进而恢复出三维人体模型;利用三维渲染工具,得到三维模型在相机视角K下的二维图像,并输出至用户屏幕。本发明使得用户可以通过智能手机等嵌入式设备快速地在元宇宙中创建一个自己的虚拟分身。
本发明解决其技术问题所采用的技术方案包括如下步骤:
步骤1:利用摄像头捕获用户的全身RGB图像;
步骤2:对步骤1获取的图像预处理,包括:(1)将图像的分辨率调整至A×A,(2)再进行标准化处理;
步骤3:低级特征提取:对预处理后的图像进行下采样,提取图像的低级特征Cl;其中下采样部分包含三个卷积层,第一层是一个卷积层Conv2D,其它两个层则为深度可分离卷积层DSConv,卷积核大小均为3×3,步长为2;
步骤4:高级特征提取:在低级特征的基础上,采用高级特征提取器进一步获得图像的全局上下文信息Ch;高级特征提取器包含3层瓶颈残差模块和一个金字塔池化层,瓶颈残差模块用于进一步提取深层信息,金字塔池化层用于聚合不同区域的上下文信息;
步骤5:特征融合:对高级特征进行双线性插值处理,获得与低级特征维度的一致的特征向量;相加低级特征Cl与高级特征Ch得到融合后的特征向量C′:
C′=Cl+Ch
采用一层瓶颈层对融合后的向量进一步处理,并进行平均池化,得到最终的A维图像特征向量C;
步骤6:利用SMPL提供的标准人体参数初始化SMPL人体模型,其中包含身体形状参数
Figure BDA0004061282140000021
姿势参数/>
Figure BDA0004061282140000022
以及相机位置参数/>
Figure BDA0004061282140000023
步骤7:回归SMPL参数:将特征向量C分别与β、θ、K进行拼接,进行3步回归,进而得到最终的β、θ以及K:
Figure BDA0004061282140000024
β=f2c)+β
Figure BDA0004061282140000025
θ=f2c)+θ
Figure BDA0004061282140000026
K=f2(Kc)+K
其中,f1(.)和f2(.)均为线性全连接网络,
Figure BDA0004061282140000027
表示向量拼接操作,βc、θc和Kc分别为β、θ和K在处理过程中的中间向量;
步骤8:根据参数θ、β,恢复出SMPL三维模型的6890个顶点:
Nv=SMPL(θ,β)
步骤9:利用Sim3DR渲染工具对三维模型进行渲染,得到三维模型在相机视角K下的二维图像,并输出至用户屏幕:
I′=render(Nv,K)
优选地,所述A=256。
本发明的有益效果如下:
本发明的网络参数量仅为3.231M,而以Resnet50为基础网络的HMR算法的网络参数量为26.978M。相比较于HMR算法,本发明极大的减少了网络的参数量,因此在CPU上推理一张图片的运行时间仅需67.59ms。本发明在轻量化的同时,仍然能保持较好的人体重建性能,
附图说明
图1为本发明方法模型图。
图2为本发明实施例人体重建的效果图。
具体实施方式
下面结合附图和实施例对本发明进一步说明。
本发明基于以下原理:双分支网络在不同的分辨率下对图像进行编码,可以在保持精度的同时减少计算量:(1)深层次的网络采用小的分辨率图像作为输入,用较深的网络来提取全局上下文信息;(2)浅层的网络采用大的分辨率图像作为输入,用来捕捉输入图像的空间细节信息与边缘信息;(3)最终的图像特征表示为两个支路的结果融合,进而帮助模型更加有效地理解人体图像。
如图1所示,一种适用于终端设备的轻量级三维虚拟形象生成,包括以下步骤:
步骤1:利用手机摄像头捕获用户的全身RGB图像。
步骤2:输入图像预处理,包括:(1)将图像的分辨率调整至256×256,(2)对裁剪后的图像进行标准化处理。
步骤3:低级特征提取:对预处理后的图像进行下采样,目的是在高分辨下提取图像的低级特征Cl。其中下采样部分包含三个卷积层,第一层是一个标准的卷积层(Conv2D),其它两个层则为深度可分离卷积层(DSConv),卷积核大小均为3×3,步长为2。
步骤4:高级特征提取:在低级特征的基础上,进一步获得图像的全局上下文信息Ch。高级特征提取器包含3层瓶颈残差模块(Linear Bottleneck)和一个金字塔池化层,瓶颈层用于进一步提取深层信息,金字塔池化层用以聚合不同区域的上下文信息。
步骤5:特征融合:首先,为保证向量维度一致,对高级特征进行双线性插值处理,获得与低级特征维度的一致的特征向量;其次,相加低级特征Cl与高级特征Ch得到融合后的特征向量C′:
C′=Cl+Ch
最后,采用一层瓶颈层(Linear Bottleneck)对融合后的向量进一步处理,并进行平均池化,得到最终的256维图像特征向量C。
步骤6:利用SMPL提供的标准人体参数来初始化SMPL人体模型,其中包含身体形状参数
Figure BDA0004061282140000041
姿势参数/>
Figure BDA0004061282140000042
以及相机位置参数/>
Figure BDA0004061282140000043
步骤7:回归SMPL参数:将特征向量C分别与β、θ、K进行拼接,进行3步回归,进而得到最终的β、θ以及K:
Figure BDA0004061282140000044
β=f2c)+β
Figure BDA0004061282140000045
θ=f2c)+θ
Figure BDA0004061282140000046
K=f2(Kc)+K
其中,f1(.)和f2(.)均为线性全连接网络,
Figure BDA0004061282140000047
表示向量拼接操作,βc、θc和Kc分别为β、θ和K在处理过程中的中间向量。
步骤8:根据参数θ,β,恢复出SMPL三维模型的6890个顶点:
Nv=SMPL(θ,β)
步骤9:利用Sim3DR渲染工具对三维模型进行渲染,得到三维模型在相机视角K下的二维图像,并输出至用户屏幕:
I′=render(Nv,K)
具体实施例:
1、利用手机摄像头捕获用户的全身RGB图像。
2、输入图像预处理,包括:(1)将图像的分辨率调整至256×256,(2)对裁剪后的图像进行标准化处理。
3、低级特征提取:对预处理后的图像进行下采样,目的是在高分辨下提取图像的低级特征Cl。其中下采样部分包含三个卷积层,第一层是一个标准的卷积层(Conv2D),其它两个层则为深度可分离卷积层(DSConv),卷积核大小均为3×3,步长为2。
4、高级特征提取:在低级特征的基础上,进一步获得图像的全局上下文信息Ch。高级特征提取器包含3层瓶颈残差模块(Linear Bottleneck)和一个金字塔池化层,瓶颈层用于进一步提取深层信息,金字塔池化层用以聚合不同区域的上下文信息。
5、特征融合:首先,为保证向量维度一致,对高级特征进行双线性插值处理,获得与低级特征维度的一致的特征向量;其次,相加低级特征Cl与高级特征Ch得到融合后的特征向量C′:
C′=Cl+Ch
最后,采用一层瓶颈层(Linear Bottleneck)对融合后的向量进一步处理,并进行平均池化,得到最终的256维图像特征向量C。
6、利用SMPL提供的标准人体参数来初始化SMPL人体模型,其中包含身体形状参数
Figure BDA0004061282140000051
姿势参数/>
Figure BDA0004061282140000052
以及相机位置参数/>
Figure BDA0004061282140000053
7、回归SMPL参数:将特征向量C分别与β、θ、K进行拼接,进行3步回归,进而得到最终的β、θ以及K:
Figure BDA0004061282140000054
β=f2c)+β
Figure BDA0004061282140000055
θ=f2c)+θ
Figure BDA0004061282140000056
K=f2(Kc)+K
8、根据参数θ,β,恢复出SMPL三维模型的6890个顶点:
Nv=SMPL(θ,β)
9、利用Sim3DR渲染工具对三维模型进行渲染,得到三维模型在相机视角K下的二维图像,并输出至用户屏幕:
I′=render(Nv,K)。
如图2为人体重建的效果图。

Claims (2)

1.一种适用于终端设备的轻量级三维虚拟分身生成方法,其特征在于,包括以下步骤:
步骤1:利用摄像头捕获用户的全身RGB图像;
步骤2:对步骤1获取的图像预处理,包括:(1)将图像的分辨率调整至A×A,(2)再进行标准化处理;
步骤3:低级特征提取:对预处理后的图像进行下采样,提取图像的低级特征Cl;其中下采样部分包含三个卷积层,第一层是一个卷积层Conv2D,其它两个层则为深度可分离卷积层DSConv,卷积核大小均为3×3,步长为2;
步骤4:高级特征提取:在低级特征的基础上,采用高级特征提取器进一步获得图像的全局上下文信息Ch;高级特征提取器包含3层瓶颈残差模块和一个金字塔池化层,瓶颈残差模块用于进一步提取深层信息,金字塔池化层用于聚合不同区域的上下文信息;
步骤5:特征融合:对高级特征进行双线性插值处理,获得与低级特征维度的一致的特征向量;相加低级特征Cl与高级特征Ch得到融合后的特征向量C′:
C′=Cl+Ch
采用一层瓶颈层对融合后的向量进一步处理,并进行平均池化,得到最终的A维图像特征向量C;
步骤6:利用SMPL提供的标准人体参数初始化SMPL人体模型,其中包含身体形状参数
Figure FDA0004061282130000011
姿势参数/>
Figure FDA0004061282130000012
以及相机位置参数/>
Figure FDA0004061282130000013
步骤7:回归SMPL参数:将特征向量C分别与β、θ、K进行拼接,进行3步回归,进而得到最终的β、θ以及K:
Figure FDA0004061282130000014
β=f2c)+β
Figure FDA0004061282130000015
θ=f2c)+θ
Figure FDA0004061282130000016
K=f2(Kc)+K
其中,f1(.)和f2(.)均为线性全连接网络,
Figure FDA0004061282130000017
表示向量拼接操作,βc、θc和Kc分别为β、θ和K在处理过程中的中间向量;
步骤8:根据参数θ、β,恢复出SMPL三维模型的6890个顶点:
Nv=SMPL(θ,β)
步骤9:利用Sim3DR渲染工具对三维模型进行渲染,得到三维模型在相机视角K下的二维图像,并输出至用户屏幕:
I′=render(Nv,K)。
2.根据权利要求1所述的一种适用于终端设备的轻量级三维虚拟分身生成方法,其特征在于,所述A=256。
CN202310061428.6A 2023-01-14 2023-01-14 一种适用于终端设备的轻量级三维虚拟分身生成方法 Pending CN116206057A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310061428.6A CN116206057A (zh) 2023-01-14 2023-01-14 一种适用于终端设备的轻量级三维虚拟分身生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310061428.6A CN116206057A (zh) 2023-01-14 2023-01-14 一种适用于终端设备的轻量级三维虚拟分身生成方法

Publications (1)

Publication Number Publication Date
CN116206057A true CN116206057A (zh) 2023-06-02

Family

ID=86516626

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310061428.6A Pending CN116206057A (zh) 2023-01-14 2023-01-14 一种适用于终端设备的轻量级三维虚拟分身生成方法

Country Status (1)

Country Link
CN (1) CN116206057A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116400675A (zh) * 2023-06-09 2023-07-07 西南交通大学 基于改进cnn-lstm模型的故障诊断系统及方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116400675A (zh) * 2023-06-09 2023-07-07 西南交通大学 基于改进cnn-lstm模型的故障诊断系统及方法
CN116400675B (zh) * 2023-06-09 2023-09-15 西南交通大学 基于改进cnn-lstm模型的故障诊断系统及方法

Similar Documents

Publication Publication Date Title
CN111696028A (zh) 真实场景图像卡通化的处理方法、装置、计算机设备和存储介质
US20130101164A1 (en) Method of real-time cropping of a real entity recorded in a video sequence
KR20200055841A (ko) 기계 학습을 위한 학습 데이터 셋 생성 장치 및 방법
CN113272870A (zh) 用于逼真的实时人像动画的系统和方法
KR102353556B1 (ko) 사용자 얼굴기반 표정 및 포즈 재현 아바타 생성장치
CN113344777B (zh) 基于三维人脸分解的换脸与重演方法及装置
CN110796593A (zh) 基于人工智能的图像处理方法、装置、介质及电子设备
CN114821675B (zh) 对象的处理方法、系统和处理器
CN112818860B (zh) 基于端到端多任务多尺度神经网络的实时三维人脸重建方法
CN117496072B (zh) 一种三维数字人生成和交互方法及系统
NZ551124A (en) Dynamic Wrinkle mapping
CN116206057A (zh) 一种适用于终端设备的轻量级三维虚拟分身生成方法
US20230230304A1 (en) Volumetric capture and mesh-tracking based machine learning 4d face/body deformation training
CN111640172A (zh) 一种基于生成对抗网络的姿态迁移方法
CN111833360A (zh) 一种图像处理方法、装置、设备以及计算机可读存储介质
CN115100707A (zh) 模型的训练方法、视频信息生成方法、设备以及存储介质
Yan et al. Video face swap based on autoencoder generation network
CN117115331B (zh) 一种虚拟形象的合成方法、合成装置、设备及介质
CN115222899B (zh) 虚拟数字人生成方法、系统、计算机设备及存储介质
CN117237188A (zh) 基于遥感图像的多尺度注意网络的显著性目标检测方法
JPH1074271A (ja) 3次元似顔作成方法および装置
CN116977169A (zh) 数据处理方法、装置、设备、可读存储介质及程序产品
CN116703719A (zh) 一种基于人脸3d先验信息的人脸超分辨率重建装置及方法
WO2024055211A1 (zh) 基于NeRF多景层结合的三维视频重建方法及系统
CN113763536A (zh) 一种基于rgb图像的三维重建方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination