CN116206057A

CN116206057A - 一种适用于终端设备的轻量级三维虚拟分身生成方法

Info

Publication number: CN116206057A
Application number: CN202310061428.6A
Authority: CN
Inventors: 郭斌; 王柱; 冯煦阳; 邱晨; 於志文; 陈梦琦; 刘思聪; 梁韵基
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2023-01-14
Filing date: 2023-01-14
Publication date: 2023-06-02

Abstract

本发明公开了一种适用于终端设备的轻量级三维虚拟分身生成方法，利用手机摄像头实时采集当前用户的图像信息，对图像进行预处理，将大小裁剪至256×256并完成标准化；利用双分支网络分别提取图像的低级特征与高级特征，并完成特征融合，进而对图像进行不同粒度地刻画；采用回归模块分别输出SMPL人体模型的身体形状参数，进而恢复出三维人体模型；利用三维渲染工具，得到三维模型在相机视角K下的二维图像，并输出至用户屏幕。本发明使得用户可以通过智能手机等嵌入式设备快速地在元宇宙中创建一个自己的虚拟分身。

Description

一种适用于终端设备的轻量级三维虚拟分身生成方法

技术领域

本发明属于深度学习技术领域，具体涉及一种轻量级三维虚拟分身生成方法。

背景技术

随着元宇宙时代的到来，越来越多的公司、科研机构开始尝试利用VR和AR等技术，尝试为虚拟世界与现实世界建立桥梁。虚拟人是元宇宙的重要组成部分。虚拟人又称数字人，指利用计算机上模拟出一个类似真人的虚拟人形象。据《2020年虚拟数字人发展白皮书》描述，虚拟数字人具备三大特征：一是拥有人的外观及性格特征；二是拥有通过语言、表情或肢体动作表达的能力；三是拥有识别外界环境、与人交流互动的能力。虚拟人可以和真人自然交互，能够为用户提供丰富的创作内容，并带来极致的沉浸式体验，甚至可能摆脱虚拟形象限制，呈现出虚拟世界与现实世界相互映射的一种可能性。在元宇宙的热潮之下，虚拟数字人也来到了爆发前夕。从清华虚拟女学霸华智冰、抖音美妆达人柳夜熙、再到阿里冬冬和每经AI虚拟主播……从虚拟偶像到虚拟主播，从演唱会到商业代言，从电商带货到医疗、教育服务等，虚拟人的商业应用场景正在越来越丰富。

传统的三维虚拟形象塑造方法涉及大量的手工作业，首先需要利用3D建模软件对人物进行建模，其次为了使人物形象动起来，需要对3D模型绑定人物骨骼系统，并利用动作捕捉技术来驱动人体运动。随着深度学习技术以及三维重建技术的发展，已经诸多的方法可以利用少量的二维图片较为准确得还原出人物的3D模型，如PiFu、Human Nerf等。然而这样方法依赖强大的GPU资源，受限于模型的复杂性，导致虚拟人技术并未广泛得走进人们的生活。

发明内容

为了克服现有技术的不足，本发明提供了一种适用于终端设备的轻量级三维虚拟分身生成方法，利用手机摄像头实时采集当前用户的图像信息，对图像进行预处理，将大小裁剪至256×256并完成标准化；利用双分支网络分别提取图像的低级特征与高级特征，并完成特征融合，进而对图像进行不同粒度地刻画；采用回归模块分别输出SMPL人体模型的身体形状参数，进而恢复出三维人体模型；利用三维渲染工具，得到三维模型在相机视角K下的二维图像，并输出至用户屏幕。本发明使得用户可以通过智能手机等嵌入式设备快速地在元宇宙中创建一个自己的虚拟分身。

本发明解决其技术问题所采用的技术方案包括如下步骤：

步骤1：利用摄像头捕获用户的全身RGB图像；

步骤2：对步骤1获取的图像预处理，包括：(1)将图像的分辨率调整至A×A，(2)再进行标准化处理；

步骤3：低级特征提取：对预处理后的图像进行下采样，提取图像的低级特征C_l；其中下采样部分包含三个卷积层，第一层是一个卷积层Conv2D，其它两个层则为深度可分离卷积层DSConv，卷积核大小均为3×3，步长为2；

步骤4：高级特征提取：在低级特征的基础上，采用高级特征提取器进一步获得图像的全局上下文信息C_h；高级特征提取器包含3层瓶颈残差模块和一个金字塔池化层，瓶颈残差模块用于进一步提取深层信息，金字塔池化层用于聚合不同区域的上下文信息；

步骤5：特征融合：对高级特征进行双线性插值处理，获得与低级特征维度的一致的特征向量；相加低级特征C_l与高级特征C_h得到融合后的特征向量C′：

C′＝C_l+C_h

采用一层瓶颈层对融合后的向量进一步处理，并进行平均池化，得到最终的A维图像特征向量C；

步骤6：利用SMPL提供的标准人体参数初始化SMPL人体模型，其中包含身体形状参数

姿势参数/>

以及相机位置参数/>

步骤7：回归SMPL参数：将特征向量C分别与β、θ、K进行拼接，进行3步回归，进而得到最终的β、θ以及K：

β＝f₂(β_c)+β

θ＝f₂(θ_c)+θ

K＝f₂(K_c)+K

其中，f₁(.)和f₂(.)均为线性全连接网络，

表示向量拼接操作，β_c、θ_c和K_c分别为β、θ和K在处理过程中的中间向量；

步骤8：根据参数θ、β，恢复出SMPL三维模型的6890个顶点：

N_v＝SMPL(θ,β)

步骤9：利用Sim3DR渲染工具对三维模型进行渲染，得到三维模型在相机视角K下的二维图像，并输出至用户屏幕：

I′＝render(N_v,K)

优选地，所述A＝256。

本发明的有益效果如下：

本发明的网络参数量仅为3.231M，而以Resnet50为基础网络的HMR算法的网络参数量为26.978M。相比较于HMR算法，本发明极大的减少了网络的参数量，因此在CPU上推理一张图片的运行时间仅需67.59ms。本发明在轻量化的同时，仍然能保持较好的人体重建性能，

附图说明

图1为本发明方法模型图。

图2为本发明实施例人体重建的效果图。

具体实施方式

下面结合附图和实施例对本发明进一步说明。

本发明基于以下原理：双分支网络在不同的分辨率下对图像进行编码，可以在保持精度的同时减少计算量：(1)深层次的网络采用小的分辨率图像作为输入，用较深的网络来提取全局上下文信息；(2)浅层的网络采用大的分辨率图像作为输入，用来捕捉输入图像的空间细节信息与边缘信息；(3)最终的图像特征表示为两个支路的结果融合，进而帮助模型更加有效地理解人体图像。

如图1所示，一种适用于终端设备的轻量级三维虚拟形象生成，包括以下步骤：

步骤1：利用手机摄像头捕获用户的全身RGB图像。

步骤2：输入图像预处理，包括：(1)将图像的分辨率调整至256×256，(2)对裁剪后的图像进行标准化处理。

步骤3：低级特征提取：对预处理后的图像进行下采样，目的是在高分辨下提取图像的低级特征C_l。其中下采样部分包含三个卷积层，第一层是一个标准的卷积层(Conv2D)，其它两个层则为深度可分离卷积层(DSConv)，卷积核大小均为3×3，步长为2。

步骤4：高级特征提取：在低级特征的基础上，进一步获得图像的全局上下文信息C_h。高级特征提取器包含3层瓶颈残差模块(Linear Bottleneck)和一个金字塔池化层，瓶颈层用于进一步提取深层信息，金字塔池化层用以聚合不同区域的上下文信息。

步骤5：特征融合：首先，为保证向量维度一致，对高级特征进行双线性插值处理，获得与低级特征维度的一致的特征向量；其次，相加低级特征C_l与高级特征C_h得到融合后的特征向量C′：

C′＝C_l+C_h

最后，采用一层瓶颈层(Linear Bottleneck)对融合后的向量进一步处理，并进行平均池化，得到最终的256维图像特征向量C。

步骤6：利用SMPL提供的标准人体参数来初始化SMPL人体模型，其中包含身体形状参数

姿势参数/>

以及相机位置参数/>

β＝f₂(β_c)+β

θ＝f₂(θ_c)+θ

K＝f₂(K_c)+K

其中，f₁(.)和f₂(.)均为线性全连接网络，

表示向量拼接操作，β_c、θ_c和K_c分别为β、θ和K在处理过程中的中间向量。

步骤8：根据参数θ,β，恢复出SMPL三维模型的6890个顶点：

N_v＝SMPL(θ,β)

I′＝render(N_v,K)

具体实施例：

1、利用手机摄像头捕获用户的全身RGB图像。

2、输入图像预处理，包括：(1)将图像的分辨率调整至256×256，(2)对裁剪后的图像进行标准化处理。

3、低级特征提取：对预处理后的图像进行下采样，目的是在高分辨下提取图像的低级特征C_l。其中下采样部分包含三个卷积层，第一层是一个标准的卷积层(Conv2D)，其它两个层则为深度可分离卷积层(DSConv)，卷积核大小均为3×3，步长为2。

4、高级特征提取：在低级特征的基础上，进一步获得图像的全局上下文信息C_h。高级特征提取器包含3层瓶颈残差模块(Linear Bottleneck)和一个金字塔池化层，瓶颈层用于进一步提取深层信息，金字塔池化层用以聚合不同区域的上下文信息。

5、特征融合：首先，为保证向量维度一致，对高级特征进行双线性插值处理，获得与低级特征维度的一致的特征向量；其次，相加低级特征C_l与高级特征C_h得到融合后的特征向量C′：

C′＝C_l+C_h

6、利用SMPL提供的标准人体参数来初始化SMPL人体模型，其中包含身体形状参数

姿势参数/>

以及相机位置参数/>

7、回归SMPL参数：将特征向量C分别与β、θ、K进行拼接，进行3步回归，进而得到最终的β、θ以及K：

β＝f₂(β_c)+β

θ＝f₂(θ_c)+θ

K＝f₂(K_c)+K

8、根据参数θ,β，恢复出SMPL三维模型的6890个顶点：

N_v＝SMPL(θ,β)

9、利用Sim3DR渲染工具对三维模型进行渲染，得到三维模型在相机视角K下的二维图像，并输出至用户屏幕：

I′＝render(N_v,K)。

如图2为人体重建的效果图。