CN113570673B - 三维人体和物体的渲染方法及其应用方法 - Google Patents

三维人体和物体的渲染方法及其应用方法 Download PDF

Info

Publication number
CN113570673B
CN113570673B CN202111117778.7A CN202111117778A CN113570673B CN 113570673 B CN113570673 B CN 113570673B CN 202111117778 A CN202111117778 A CN 202111117778A CN 113570673 B CN113570673 B CN 113570673B
Authority
CN
China
Prior art keywords
color
image
human body
sampling
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111117778.7A
Other languages
English (en)
Other versions
CN113570673A (zh
Inventor
徐迪
叶慕聪
王凯
毛文涛
孙立
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Yingchuang Information Technology Co ltd
Original Assignee
Beijing Yingchuang Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Yingchuang Information Technology Co ltd filed Critical Beijing Yingchuang Information Technology Co ltd
Priority to CN202111117778.7A priority Critical patent/CN113570673B/zh
Publication of CN113570673A publication Critical patent/CN113570673A/zh
Application granted granted Critical
Publication of CN113570673B publication Critical patent/CN113570673B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/80Analysis of captured images to determine intrinsic or extrinsic camera parameters, i.e. camera calibration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/005General purpose rendering architectures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/006Mixed reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • G06T7/75Determining position or orientation of objects or cameras using feature-based methods involving models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30244Camera pose

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Graphics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Processing Or Creating Images (AREA)
  • Image Processing (AREA)

Abstract

本申请提供了一种三维人体和物体的渲染方法及其应用方法,渲染方法包括:使用标定完成的多相机进行图像采集,对采集得到的彩色图像及其对应的深度和相机视角进行保存;基于采集得到的彩色图像,使用人体姿态估计算法获取人体姿态;使用人体姿态驱动可变形的结构化人体三维模型,得到人体几何外观;使用人体几何外观、彩色图像及其对应的深度和相机视角优化几何学习多层感知机;利用在物体表面的采样点优化颜色学习多层感知机;利用优化后的颜色学习多层感知机进行多视角彩色图像合成。本申请通过采用先验编码、几何学习多层感知机和颜色学习多层感知机,能够提高稀疏视角下人体和物体的渲染效果。

Description

三维人体和物体的渲染方法及其应用方法
技术领域
本申请属于图像处理技术领域,具体涉及一种三维人体和物体的渲染方法及其应用方法。
背景技术
无论是影视节目还是体育赛事,我们所看到的画面都是由单个摄像头拍摄的。在这种条件下,人们的观看视角就和相机视角牢牢地绑定在一起。为了摆脱这些限制,采用任意视角神经渲染技术,只需输入少量角度拍摄的人体镜头,便可合成360°的人体3D新视图,使得观众获得完全沉浸式的体验感受。
然而,现有的神经渲染技术无法很好地推广到显示应用中。一方面,现有的渲染技术需要非常稠密的视角来训练视角合成网络,一般需要100个相机。为了拍摄稠密的多视角视频,传统方法需要昂贵的相机阵列来进行捕捉。这套相机阵列设备特别昂贵,而且还很不方便,一般只在电影拍摄时用到。另一方面,现有的合成技术只能合成静态场景;对于动态场景,现有技术只能将单帧作为一个静态场景,对于一段120帧的人体运动视频,为了完成360°视角的观感,则需要训练120个网络来对每一帧做预测,而且各帧视频之间没有任何联系,导致计算量庞大,复杂度过高。其次,现有的任意视角合成技术需要极高的计算能力。因此,现有的渲染技术无法应用到虚拟现实眼镜中。
发明内容
为至少在一定程度上克服相关技术中存在的问题,本申请提供了一种三维人体和物体的渲染方法及其应用方法。
根据本申请实施例的第一方面,本申请提供了一种三维人体和物体的渲染方法,其包括以下步骤:
使用标定完成的多相机进行图像采集,对采集得到的彩色图像及其对应的深度和相机视角进行保存;
基于采集得到的彩色图像,使用人体姿态估计算法获取人体姿态;
使用人体姿态驱动可变形的结构化人体三维模型,得到人体几何外观;
使用人体几何外观、彩色图像及其对应的深度和相机视角优化几何学习多层感知机;
利用在物体表面的采样点优化颜色学习多层感知机;
利用优化后的颜色学习多层感知机进行多视角彩色图像合成。
上述三维人体和物体的渲染方法中,所述使用人体几何外观、彩色图像及其对应的深度和相机视角优化几何学习多层感知机的具体过程为:
沿相机视角方向采样k个点,并获取每个采样点的向量
Figure DEST_PATH_IMAGE001
进行表 示,其中,
Figure DEST_PATH_IMAGE002
表示用于采样的相机的水平角度,
Figure DEST_PATH_IMAGE003
表示用于采样的相机的垂直角度,
Figure DEST_PATH_IMAGE004
表 示采样点在空间中的位置坐标,D表示采样点在空间位置
Figure DEST_PATH_IMAGE005
处的深度,
Figure DEST_PATH_IMAGE006
表示上 采样后的人体几何外观在
Figure 933693DEST_PATH_IMAGE005
上的值;采样点的向量中的各元素为采样点的先验 信息;
用升维编码对采样点的先验信息进行升维处理;
将升维后得到的编码输入几何学习多层感知机
Figure DEST_PATH_IMAGE007
中,预测
Figure DEST_PATH_IMAGE008
个采样 点中各采样点在物体表面的概率,并根据该概率得到在物体表面的采样点;
设置几何学习多层感知机的损失函数
Figure DEST_PATH_IMAGE009
Figure DEST_PATH_IMAGE010
式中,mask表示物体表面上的点,Background表示不在物体表面上的点。BCE(Binary Cross Entropy Loss)表示二值交叉熵损失函数;
最小化几何学习多层感知机的损失函数
Figure DEST_PATH_IMAGE011
,以优化几何学习多层感知机,直 至几何学习多层感知机收敛。
进一步地,所述采用升维编码对采样点的先验信息进行升维处理时采用以下编码函数:
Figure DEST_PATH_IMAGE012
式中,L表示超参数,其控制编码函数
Figure DEST_PATH_IMAGE013
输出的维度;L越大,编码函数
Figure 265186DEST_PATH_IMAGE013
输 出的维度越大;
Figure DEST_PATH_IMAGE014
表示编码函数
Figure 939881DEST_PATH_IMAGE013
的输入量;
Figure DEST_PATH_IMAGE015
分别作为编码函数
Figure 899485DEST_PATH_IMAGE013
的输入,分别对应得到一个2L维的向量
Figure DEST_PATH_IMAGE016
根据得到的各2L维的向量,得到升维后的编码为:
Figure DEST_PATH_IMAGE017
更进一步地,所述将升维后得到的编码输入几何学习多层感知机
Figure DEST_PATH_IMAGE018
中,预测
Figure DEST_PATH_IMAGE019
个采样点中各采样点在物体表面的概率,并根据该概率得到在物体表面的采样 点的过程为:
几何学习多层感知机
Figure 611220DEST_PATH_IMAGE018
的输出结果为[0,1];
Figure DEST_PATH_IMAGE020
时,表示采样点在物体表面;当
Figure DEST_PATH_IMAGE021
时,表示采 样点不在物体表面。
更进一步地,所述利用在物体表面的采样点优化颜色学习多层感知机的过程为:
将得到的物体表面的采样点输入颜色学习多层感知机
Figure DEST_PATH_IMAGE022
中,输出 该采样点的颜色学习多层感知机的预测颜色值
Figure DEST_PATH_IMAGE023
,即:
Figure DEST_PATH_IMAGE024
设置颜色学习多层感知机的损失函数
Figure DEST_PATH_IMAGE025
Figure DEST_PATH_IMAGE026
式中,RGB表示真实的颜色值,
Figure DEST_PATH_IMAGE027
表示颜色学习多层感知机的预测颜色值;
最小化颜色学习多层感知机的损失函数
Figure 898851DEST_PATH_IMAGE025
,以优化颜色学习多层感知机,直至 颜色学习多层感知机收敛。
根据本申请实施例的第二方面,本申请提供了一种上述任一三维人体和物体的渲染方法的应用方法,所述三维人体和物体的渲染方法应用于混合现实眼镜端中,其包括以下步骤:
将优化完成的颜色学习多层感知机部署到云服务器;
混合现实眼镜端实时获取当前佩戴者的相机视角,并将获取到的视角参数通过网络传输至云服务器;
云服务器根据混合现实眼镜端传送过来的相机视角进行多视角彩色图像合成,并将合成后的图像传输给混合现实眼镜端;
混合现实眼镜端对合成后的任意视角的彩色图像进行展示。
上述三维人体和物体的渲染方法的应用方法中,所述云服务器根据混合现实眼镜端传送过来的相机视角进行多视角彩色图像合成的具体过程为:
云服务器对接收到的混合现实眼镜端传送过来的各参数
Figure DEST_PATH_IMAGE028
进行先 验信息编码;
顺次采用几何学习多层感知机
Figure DEST_PATH_IMAGE029
和颜色学习多层感知机
Figure DEST_PATH_IMAGE030
最终合成彩色图像。
上述三维人体和物体的渲染方法的应用方法中,所述混合现实眼镜端设置有帧质量提升模型,所述帧质量提升模型被配置为:
采用卷积提取从云服务器获取的图像的全局信息和位置信息;
采用双线性插值将从云服务器获取的图像上采样1.5倍,得到第一上采样图像;
将从云服务器获取的图像直接上采样为与第一上采样图像的相同尺寸的图像,并与第一上采样图像合并,得到第一合并图像;
采用卷积提取第一合并图像的特征,得到第二上采样图像;
将第一合并图像与第二上采样图像合并,得到第二合并图像;
采用卷积提取第二合并图像的特征,得到最终的彩色图像,该彩色图像用于在混合现实眼镜端显示。
根据本申请实施例的第三方面,本申请提供了一种三维人体和物体的渲染装置,其包括存储器以及耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器中的指令,执行上述任一项所述的三维人体和物体的渲染方法。
根据本申请实施例的第四方面,本申请还提供了一种计算机存储介质,其包括计算机程序的存储器,所述计算机程序由处理器执行,以完成上述任一项所述的三维人体和物体的渲染方法。
根据本申请的上述具体实施方式可知,至少具有以下有益效果:本申请三维人体和物体的渲染方法通过采用先验编码、几何学习多层感知机和颜色学习多层感知机,能够解决在稀疏视角下动态场景任意视角合成效果差的问题,提高稀疏视角下的人体和物体的渲染效果。
本申请三维人体和物体的渲染方法的应用方法通过在云服务器端部署优化完成的颜色学习多层感知机,在云服务器上渲染,在混合现实眼镜端显示,能够解决目前混合现实眼镜端算力较低,合成视角时间长的问题。混合现实眼镜端通过设置帧质量提升模型,能够使混合现实眼镜端实现实时现实的渲染效果
在相同图像质量的情况下,采用本申请三维人体和物体的渲染方法,所需的相机数量更少。
应了解的是,上述一般描述及以下具体实施方式仅为示例性及阐释性的,其并不能限制本申请所欲主张的范围。
附图说明
下面的所附附图是本申请的说明书的一部分,其示出了本申请的实施例,所附附图与说明书的描述一起用来说明本申请的原理。
图1为本申请具体实施方式提供的一种三维人体和物体的渲染方法的流程图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚明白,下面将以附图及详细叙述清楚说明本申请所揭示内容的精神,任何所属技术领域技术人员在了解本申请内容的实施例后,当可由本申请内容所教示的技术,加以改变及修饰,其并不脱离本申请内容的精神与范围。
本申请的示意性实施例及其说明用于解释本申请,但并不作为对本申请的限定。另外,在附图及实施方式中所使用相同或类似标号的元件/构件是用来代表相同或类似部分。
关于本文中所使用的“第一”、“第二”、…等,并非特别指称次序或顺位的意思,也非用以限定本申请,其仅为了区别以相同技术用语描述的元件或操作。
关于本文中所使用的“包含”、“包括”、“具有”、“含有”等等,均为开放性的用语,即意指包含但不限于。
关于本文中所使用的“及/或”,包括所述事物的任一或全部组合。
关于本文中的“多个”包括“两个”及“两个以上”;关于本文中的“多组”包括“两组”及“两组以上”。
关于本文中所使用的用语“大致”、“约”等,用以修饰任何可以细微变化的数量或误差,但这些微变化或误差并不会改变其本质。一般而言,此类用语所修饰的细微变化或误差的范围在部分实施例中可为20%,在部分实施例中可为10%,在部分实施例中可为5%或是其他数值。本领域技术人员应当了解,前述提及的数值可依实际需求而调整,并不以此为限。
某些用以描述本申请的用词将于下或在此说明书的别处讨论,以提供本领域技术人员在有关本申请的描述上额外的引导。
图1为本申请具体实施方式提供的一种三维人体和物体的渲染方法的流程图。
如图1所示,本申请实施例提供的三维人体和物体的渲染方法包括以下步骤:
S1、使用标定完成的多相机进行图像采集,对采集得到的彩色图像及其对应的深度和相机视角进行保存;并采用图像分割算法区分背景图像和目标图像。
其中,对多相机进行标定的过程为:
将标定物竖直放置在至少两台相机的可见范围内。具体地,标定物可以通过将一张棋盘格贴在一平面上得到。
通过调整标定物或相机的方向,为标定物拍摄多张不同方向的照片。
从照片中提取棋盘格角点信息。
估算理想无畸变的情况下相机的内参和外参。其中,相机的内参包括相机的主点坐标、焦距、畸变系数、径向畸变参数和切向畸变参数;相机的外参包括旋转参数和平移参数。
使用最小二乘法估算实际存在径向畸变情况下的畸变系数。
简单来说,相机标定是从世界坐标系转换为相机坐标系,再由相机坐标系转换为图像坐标系的过程,最终输出相机的内参和外参系数。利用内参和外参系数可以对之后相机拍摄的图像进行矫正,得到畸变相对很小的图像。
使用标定完成的多相机进行图像采集时,可以将采集到的每一帧彩色图像及其对 应的深度,以及相机的视角存储到外部存储器中。其中,相机的视角包括相机的水平角度
Figure DEST_PATH_IMAGE031
和相机的垂直角度
Figure DEST_PATH_IMAGE032
。记为
Figure DEST_PATH_IMAGE033
采用图像分割算法区分背景图像和目标图像时,将背景图像设置为0,将目标图像设置为1。
S2、基于采集得到的彩色图像,使用人体姿态估计算法获取人体姿态。
其中,人体姿态估计算法具体可以采用OpenPose算法。
S3、使用人体姿态驱动可变形的结构化人体三维模型,得到人体几何外观。
具体地,可变形的结构化人体三维模型可以采用SMPL(A Skinned Multi-PersonLinear Model,参数化人体三维模型),SMPL是一个基于顶点的蒙皮模型,它被定义为形状参数、姿态参数和相对于SMPL坐标系的刚性变换的函数。该函数输出具有6890个顶点,使用6890个顶点表示人体几何外观。
S4、使用人体几何外观、彩色图像及其对应的深度和相机视角优化几何学习多层感知机,其包括以下步骤:
S41、沿相机视角方向采样k个点,其具体过程为:
在三维空间中,沿相机视角方向透射一条射线,在这条射线上均匀采样k个点,例如可以每隔1mm采样一个点。对于采样得到的k个点,存在两种情况,一种是该采样点在物体表面上,另一种是该采样点不在物体表面上。
对于每个采样点均可以采用一个7维向量进行表示,该7维向量为
Figure DEST_PATH_IMAGE034
,此处,
Figure DEST_PATH_IMAGE035
表示用于采样的相机的水平角度,
Figure DEST_PATH_IMAGE036
表示用于采样的相机的垂 直角度,
Figure DEST_PATH_IMAGE037
表示采样点在空间中的位置坐标,
Figure DEST_PATH_IMAGE038
表示采样点在空间位置
Figure DEST_PATH_IMAGE039
处 的深度,
Figure DEST_PATH_IMAGE040
表示上采样后的人体几何外观在
Figure 932229DEST_PATH_IMAGE039
上的值。该7维向量中的元素均为 采样点的先验信息
S42、采用升维编码对采样点的先验信息进行升维处理,具体采用以下编码函数:
Figure DEST_PATH_IMAGE041
(1)
式(1)中,L表示超参数,其控制编码函数
Figure DEST_PATH_IMAGE042
输出的维度。L越大,编码函数
Figure 44542DEST_PATH_IMAGE042
输出的维度越大。
Figure DEST_PATH_IMAGE043
表示编码函数
Figure 815926DEST_PATH_IMAGE042
的输入量。
例如,当L=6时,将
Figure 951372DEST_PATH_IMAGE035
的值作为编码函数
Figure DEST_PATH_IMAGE044
的输入,即
Figure DEST_PATH_IMAGE045
,编码得到一个12 维向量。同理,将
Figure DEST_PATH_IMAGE046
分别作为编码函数
Figure 905553DEST_PATH_IMAGE042
的输入,分别编码得到一个12维向 量。最终,将一个7维向量升维到84维向量,即升维后得到的编码为:
Figure DEST_PATH_IMAGE047
(2)
S43、将升维后得到的编码输入几何学习多层感知机
Figure DEST_PATH_IMAGE048
中,预测
Figure DEST_PATH_IMAGE049
个采 样点中各采样点在物体表面的概率,并根据该概率得到在物体表面的采样点。
其中,几何学习多层感知机
Figure 777432DEST_PATH_IMAGE048
的输出结果为[0,1]。
Figure DEST_PATH_IMAGE050
时,表示采样点在物体表面;当
Figure DEST_PATH_IMAGE051
=0时,表示采 样点不在物体表面。
S44、设置几何学习多层感知机的损失函数
Figure DEST_PATH_IMAGE052
Figure DEST_PATH_IMAGE053
(3)
式(3)中,mask表示物体表面上的点,Background表示不在物体表面上的点。BCE(Binary Cross Entropy Loss)表示二值交叉熵损失函数,其函数表达式为:
Figure DEST_PATH_IMAGE054
(4)
其中,
Figure DEST_PATH_IMAGE055
为多层感知机的预测值,
Figure DEST_PATH_IMAGE056
为真实分割结果。
根据式(4),当采用步骤S1得到的真实分割结果为1时,即分割得到目标图像时,
Figure DEST_PATH_IMAGE057
(5)
当采用步骤S1得到的真实分割结果为0时,即分割得到背景图像时,
Figure DEST_PATH_IMAGE058
(6)
通过求取式(5)和式(6)的最小值,可以达到几何学习多层感知机的损失函数
Figure DEST_PATH_IMAGE059
的最小值,进而根据几何学习多层感知机的损失函数
Figure 741889DEST_PATH_IMAGE059
的最小值可以反算出
Figure DEST_PATH_IMAGE060
个采样点中各采样点在物体表面的概率,并根据该概率得到在物体表面的采样点。
S45、最小化几何学习多层感知机的损失函数
Figure 630210DEST_PATH_IMAGE059
,以优化几何学习多层感知机, 直至几何学习多层感知机收敛。
S5、利用在物体表面的采样点优化颜色学习多层感知机,其包括以下步骤:
S51、将步骤S4得到的物体表面的采样点输入颜色学习多层感知机
Figure DEST_PATH_IMAGE061
中,输出该采样点的颜色学习多层感知机的预测颜色值
Figure DEST_PATH_IMAGE062
,即:
Figure DEST_PATH_IMAGE063
(7)
S52、设置颜色学习多层感知机的损失函数
Figure DEST_PATH_IMAGE064
Figure DEST_PATH_IMAGE065
(8)
式(8)中,RGB表示真实的颜色值,
Figure 824300DEST_PATH_IMAGE062
表示颜色学习多层感知机的预测颜色值。
S53、最小化颜色学习多层感知机的损失函数
Figure DEST_PATH_IMAGE066
,以优化颜色学习多层感知机, 直至颜色学习多层感知机收敛。
S6、利用优化后的颜色学习多层感知机进行多视角彩色图像合成。
本申请实施例提供的三维人体和物体的渲染方法通过采用先验编码、几何学习多层感知机和颜色学习多层感知机,能够解决在稀疏视角下动态场景任意视角合成效果差的问题。
基于本申请实施例提供的三维人体和物体的渲染方法,本申请实施例还提供了一种三维人体和物体的渲染方法的应用方法,三维人体和物体的渲染方法应用于混合现实眼镜端中,能够实现混合现实眼镜端的实时现实渲染,其包括以下步骤:
S7、将优化完成的颜色学习多层感知机部署到云服务器,其具体过程为:
S71、使用TensorRT技术对优化完成的颜色学习多层感知机进行打包,其过程为:
首先,将颜色学习多层感知机封装为.onnx格式的模型。
然后,使用TensorRT技术将.onnx格式的模型转换为.TRT格式的模型,以加速模型推理速度。
S72、搭建云服务器:
基于C/S架构搭建云服务器,将加速后的模型部署到云服务器,并留出服务器接口以接收混合现实眼镜端传来的视角参数。
S8、混合现实眼镜端实时获取当前佩戴者的相机视角,并将获取到的视角参数通过网络传输至云服务器。
S9、云服务器根据混合现实眼镜端传送过来的相机视角进行多视角彩色图像合成,并将合成后的图像传输给混合现实眼镜端。
其中,云服务器根据混合现实眼镜端传送过来的相机视角进行多视角彩色图像合成的具体过程为:
云服务器对接收到的混合现实眼镜端传送过来的各参数
Figure DEST_PATH_IMAGE067
进行先 验信息编码;顺次采用几何学习多层感知机
Figure DEST_PATH_IMAGE068
和颜色学习多层感知机
Figure DEST_PATH_IMAGE069
最终合成彩色图像。
S10、混合现实眼镜端对合成后的任意视角的彩色图像进行展示。
为避免延迟和保证合成图像的传输质量,混合现实眼镜端部署有轻量级实时的帧质量提升模型,该模型可以将前一帧图像与当前帧图像关联起来。一方面可以适当降低传输过程中图像的分辨率,以降低传输的延迟;另一方面,由于无法100%保证通信网络的稳定性,因此丢包等情况比较常见,导致图像像素点丢失,图像质量差,而帧质量提升模型能够通过补全像素点来解决上述问题。
对于云服务器合成的彩色图像,可以将其尺寸缩小一半进行传输,以减少传输字节数,进而降低传输延迟。例如,云服务器合成的彩色图像的尺寸为1024×512,可以将该图像下次采样2倍,得到下采样后尺寸为512×256的图像。
帧质量提升模型的处理过程为:
采用卷积提取从云服务器获取的图像的全局信息和位置信息。
采用双线性插值将从云服务器获取的图像
Figure DEST_PATH_IMAGE070
上采样1.5倍,得到第一上采样图像
Figure DEST_PATH_IMAGE071
,该图像的尺寸为768×384。
将从云服务器获取的图像
Figure DEST_PATH_IMAGE072
直接上采样为尺寸为768×384的图像,并与第一上采 样图像
Figure DEST_PATH_IMAGE073
合并,得到第一合并图像。
采用卷积提取第一合并图像的特征,得到第二上采样图像
Figure DEST_PATH_IMAGE074
,该图像的尺寸为 1024×512。
将第一合并图像与第二上采样图像
Figure DEST_PATH_IMAGE075
合并,得到第二合并图像。
采用卷积提取第二合并图像的特征,得到最终的彩色图像,该彩色图像用于在混合现实眼镜端显示。
需要说明的是,卷积包括卷积层、归一化层和激活函数层,其中,卷积层的卷积核为3×3,步长为1,图像边界补一个像素点,值为0。激活函数层的激活函数为Relu。
帧质量提升模型训练与部署时,
对于采集到的颜色图像,将
Figure DEST_PATH_IMAGE076
定义为采集到的颜色图像下采样1.5倍后得到的图 像,
Figure 331112DEST_PATH_IMAGE077
为原图像,误差损失为:
Figure DEST_PATH_IMAGE078
将原图像
Figure 211343DEST_PATH_IMAGE079
下采样2倍后执行上述帧质量提升模型的处理过程,
Figure DEST_PATH_IMAGE080
均为为帧 质量提升模型的输出。
在示例性实施例中,本申请实施例还提供了一种三维人体和物体的渲染装置,其包括存储器以及耦接至该存储器的处理器,处理器被配置为基于存储在存储器中的指令,执行本申请中任一个实施例中的三维人体和物体的渲染方法。
其中,存储器可以为系统存储器或固定非易失性存储介质等,系统存储器可以存储有操作系统、应用程序、引导装载程序、数据库以及其他程序等。
在示例性实施例中,本申请实施例还提供了一种计算机存储介质,是计算机可读存储介质,例如,包括计算机程序的存储器,上述计算机程序可由处理器执行,以完成本申请中任一个实施例中的三维人体和物体的渲染方法。
以上所述仅为本申请示意性的具体实施方式,在不脱离本申请的构思和原则的前提下,任何本领域的技术人员所做出的等同变化与修改,均应属于本申请保护的范围。

Claims (9)

1.一种三维人体和物体的渲染方法,其特征在于,包括以下步骤:
使用标定完成的多相机进行图像采集,对采集得到的彩色图像及其对应的深度和相机视角进行保存;
基于采集得到的彩色图像,使用人体姿态估计算法获取人体姿态;
使用人体姿态驱动可变形的结构化人体三维模型,得到人体几何外观;
使用人体几何外观、彩色图像及其对应的深度和相机视角优化几何学习多层感知机,其具体过程为:
沿相机视角方向采样k个点,并获取每个采样点的向量,采样点的向量中的各元素为采样点的先验信息;
用升维编码对采样点的先验信息进行升维处理;
将升维后得到的编码输入几何学习多层感知机
Figure 313572DEST_PATH_IMAGE001
中,预测
Figure 61080DEST_PATH_IMAGE002
个采样点中各采样点在物体表面的概率,并根据该概率得到在物体表面的采样点;
设置几何学习多层感知机的损失函数
Figure 913498DEST_PATH_IMAGE003
Figure 871090DEST_PATH_IMAGE004
式中,mask表示物体表面上的点,Background表示不在物体表面上的点;BCE(BinaryCross Entropy Loss)表示二值交叉熵损失函数;
最小化几何学习多层感知机的损失函数
Figure 217889DEST_PATH_IMAGE003
,以优化几何学习多层感知机,直至几何学习多层感知机收敛;
利用在物体表面的采样点优化颜色学习多层感知机,其具体过程为:
将得到的物体表面的采样点输入颜色学习多层感知机
Figure 944536DEST_PATH_IMAGE005
中,输出该采样点的颜色学习多层感知机的预测颜色值
Figure 702277DEST_PATH_IMAGE006
,即:
Figure 412744DEST_PATH_IMAGE007
设置颜色学习多层感知机的损失函数
Figure 760636DEST_PATH_IMAGE008
Figure 732003DEST_PATH_IMAGE009
式中,RGB表示真实的颜色值,
Figure 801591DEST_PATH_IMAGE010
表示颜色学习多层感知机的预测颜色值;
最小化颜色学习多层感知机的损失函数
Figure 609141DEST_PATH_IMAGE011
,以优化颜色学习多层感知机,直至颜色学习多层感知机收敛;
利用优化后的颜色学习多层感知机进行多视角彩色图像合成。
2.根据权利要求1所述的三维人体和物体的渲染方法,其特征在于,每个所述采样点均采用向量
Figure 281430DEST_PATH_IMAGE012
进行表示,其中,
Figure 248249DEST_PATH_IMAGE013
表示用于采样的相机的水平角度,
Figure 832946DEST_PATH_IMAGE014
表示用于采样的相机的垂直角度,
Figure 518005DEST_PATH_IMAGE015
表示采样点在空间中的位置坐标,
Figure 728406DEST_PATH_IMAGE016
表示采样点在空间位置
Figure 425098DEST_PATH_IMAGE017
处的深度,
Figure 305329DEST_PATH_IMAGE018
表示上采样后的人体几何外观在
Figure 336739DEST_PATH_IMAGE017
上的值。
3.根据权利要求2所述的三维人体和物体的渲染方法,其特征在于,所述采用升维编码对采样点的先验信息进行升维处理时采用以下编码函数:
Figure 835985DEST_PATH_IMAGE019
式中,L表示超参数,其控制编码函数
Figure 370871DEST_PATH_IMAGE020
输出的维度;L越大,编码函数
Figure 687583DEST_PATH_IMAGE020
输出的维度越大;
Figure 957022DEST_PATH_IMAGE021
表示编码函数
Figure 650171DEST_PATH_IMAGE020
的输入量;
Figure 305144DEST_PATH_IMAGE022
分别作为编码函数
Figure 933702DEST_PATH_IMAGE020
的输入,分别对应得到一个2L维的向量
Figure 549491DEST_PATH_IMAGE023
根据得到的各2L维的向量,得到升维后的编码为:
Figure 905386DEST_PATH_IMAGE024
4.根据权利要求3所述的三维人体和物体的渲染方法,其特征在于,所述将升维后得到的编码输入几何学习多层感知机
Figure 555810DEST_PATH_IMAGE025
中,预测
Figure 89691DEST_PATH_IMAGE026
个采样点中各采样点在物体表面的概率,并根据该概率得到在物体表面的采样点的过程为:
几何学习多层感知机
Figure 582989DEST_PATH_IMAGE025
的输出结果为[0,1];
Figure 617941DEST_PATH_IMAGE027
时,表示采样点在物体表面;当
Figure 726800DEST_PATH_IMAGE028
时,表示采样点不在物体表面。
5.一种如权利要求1-4任一项所述的三维人体和物体的渲染方法的应用方法,其特征在于,所述三维人体和物体的渲染方法应用于混合现实眼镜端中,其包括以下步骤:
将优化完成的颜色学习多层感知机部署到云服务器;
混合现实眼镜端实时获取当前佩戴者的相机视角,并将获取到的视角参数通过网络传输至云服务器;
云服务器根据混合现实眼镜端传送过来的相机视角进行多视角彩色图像合成,并将合成后的图像传输给混合现实眼镜端;
混合现实眼镜端对合成后的任意视角的彩色图像进行展示。
6.根据权利要求5所述的三维人体和物体的渲染方法的应用方法,其特征在于,所述云服务器根据混合现实眼镜端传送过来的相机视角进行多视角彩色图像合成的具体过程为:
云服务器对接收到的混合现实眼镜端传送过来的各参数
Figure 821795DEST_PATH_IMAGE029
进行先验信息编码;
顺次采用几何学习多层感知机
Figure 536810DEST_PATH_IMAGE030
和颜色学习多层感知机
Figure 985240DEST_PATH_IMAGE031
最终合成彩色图像。
7.根据权利要求5所述的三维人体和物体的渲染方法的应用方法,其特征在于,所述混合现实眼镜端设置有帧质量提升模型,所述帧质量提升模型被配置为:
采用卷积提取从云服务器获取的图像的全局信息和位置信息;
采用双线性插值将从云服务器获取的图像上采样1.5倍,得到第一上采样图像;
将从云服务器获取的图像直接上采样为与第一上采样图像的相同尺寸的图像,并与第一上采样图像合并,得到第一合并图像;
采用卷积提取第一合并图像的特征,得到第二上采样图像;
将第一合并图像与第二上采样图像合并,得到第二合并图像;
采用卷积提取第二合并图像的特征,得到最终的彩色图像,该彩色图像用于在混合现实眼镜端显示。
8.一种三维人体和物体的渲染装置,其特征在于,包括存储器以及耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器中的指令,执行如权利要求1-4任一项所述的三维人体和物体的渲染方法。
9.一种计算机存储介质,其特征在于,包括计算机程序的存储器,所述计算机程序由处理器执行,以完成如权利要求1-4任一项所述的三维人体和物体的渲染方法。
CN202111117778.7A 2021-09-24 2021-09-24 三维人体和物体的渲染方法及其应用方法 Active CN113570673B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111117778.7A CN113570673B (zh) 2021-09-24 2021-09-24 三维人体和物体的渲染方法及其应用方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111117778.7A CN113570673B (zh) 2021-09-24 2021-09-24 三维人体和物体的渲染方法及其应用方法

Publications (2)

Publication Number Publication Date
CN113570673A CN113570673A (zh) 2021-10-29
CN113570673B true CN113570673B (zh) 2021-12-17

Family

ID=78174115

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111117778.7A Active CN113570673B (zh) 2021-09-24 2021-09-24 三维人体和物体的渲染方法及其应用方法

Country Status (1)

Country Link
CN (1) CN113570673B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210019928A1 (en) * 2019-07-15 2021-01-21 Disney Enterprises, Inc. Techniques for feature-based neural rendering
CN112465955A (zh) * 2020-12-10 2021-03-09 浙江大学 一种动态人体三维重建和视角合成方法
CN113112592A (zh) * 2021-04-19 2021-07-13 浙江大学 一种可驱动的隐式三维人体表示方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210019928A1 (en) * 2019-07-15 2021-01-21 Disney Enterprises, Inc. Techniques for feature-based neural rendering
CN112465955A (zh) * 2020-12-10 2021-03-09 浙江大学 一种动态人体三维重建和视角合成方法
CN113112592A (zh) * 2021-04-19 2021-07-13 浙江大学 一种可驱动的隐式三维人体表示方法

Also Published As

Publication number Publication date
CN113570673A (zh) 2021-10-29

Similar Documents

Publication Publication Date Title
KR102295403B1 (ko) 깊이 추정 방법 및 장치, 전자 기기, 프로그램 및 매체
CN110378838B (zh) 变视角图像生成方法,装置,存储介质及电子设备
JP6902122B2 (ja) ダブル視野角画像較正および画像処理方法、装置、記憶媒体ならびに電子機器
JP2004187298A (ja) パノラマ画像および全方位画像の描画および符号化
KR102141319B1 (ko) 다시점 360도 영상의 초해상화 방법 및 영상처리장치
CN113762147B (zh) 人脸表情迁移方法、装置、电子设备及存储介质
CN116051740A (zh) 一种基于神经辐射场的室外无界场景三维重建方法及系统
US20230154104A1 (en) UNCERTAINTY-AWARE FUSION TOWARDS LARGE-SCALE NeRF
US11961266B2 (en) Multiview neural human prediction using implicit differentiable renderer for facial expression, body pose shape and clothes performance capture
CN114463230A (zh) 一种图像处理方法及相关设备
CN113643366A (zh) 一种多视角三维对象姿态估计方法及装置
WO2022208440A1 (en) Multiview neural human prediction using implicit differentiable renderer for facial expression, body pose shape and clothes performance capture
CN115375838A (zh) 一种基于无人机的双目灰度图像的三维重建方法
WO2020092051A1 (en) Rolling shutter rectification in images/videos using convolutional neural networks with applications to sfm/slam with rolling shutter images/videos
CN117036581B (zh) 基于二维神经渲染的体渲染方法、系统、设备及介质
CN116912148B (zh) 图像增强方法、装置、计算机设备及计算机可读存储介质
CN116843551A (zh) 一种图像处理方法、装置、电子设备及存储介质
CN113570673B (zh) 三维人体和物体的渲染方法及其应用方法
CN112541972A (zh) 一种视点图像处理方法及相关设备
KR20230078502A (ko) 이미지 처리 장치 및 방법
CN115482368A (zh) 一种利用语义图进行三维场景编辑的方法
JP6310417B2 (ja) 画像処理装置、画像処理方法及び画像処理プログラム
JP6297965B2 (ja) 画像処理装置、画像処理方法及び画像処理プログラム
CN117274066B (zh) 一种图像合成模型、方法、设备及存储介质
WO2024007968A1 (en) Methods and system for generating an image of a human

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PP01 Preservation of patent right
PP01 Preservation of patent right

Effective date of registration: 20230810

Granted publication date: 20211217