CN113570673A - 三维人体和物体的渲染方法及其应用方法 - Google Patents

三维人体和物体的渲染方法及其应用方法 Download PDF

Info

Publication number
CN113570673A
CN113570673A CN202111117778.7A CN202111117778A CN113570673A CN 113570673 A CN113570673 A CN 113570673A CN 202111117778 A CN202111117778 A CN 202111117778A CN 113570673 A CN113570673 A CN 113570673A
Authority
CN
China
Prior art keywords
color
image
human body
learning
sampling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111117778.7A
Other languages
English (en)
Other versions
CN113570673B (zh
Inventor
徐迪
叶慕聪
王凯
毛文涛
孙立
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Yingchuang Information Technology Co ltd
Original Assignee
Beijing Yingchuang Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Yingchuang Information Technology Co ltd filed Critical Beijing Yingchuang Information Technology Co ltd
Priority to CN202111117778.7A priority Critical patent/CN113570673B/zh
Publication of CN113570673A publication Critical patent/CN113570673A/zh
Application granted granted Critical
Publication of CN113570673B publication Critical patent/CN113570673B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/80Analysis of captured images to determine intrinsic or extrinsic camera parameters, i.e. camera calibration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/005General purpose rendering architectures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/006Mixed reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • G06T7/75Determining position or orientation of objects or cameras using feature-based methods involving models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30244Camera pose

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Graphics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Processing Or Creating Images (AREA)
  • Image Processing (AREA)

Abstract

本申请提供了一种三维人体和物体的渲染方法及其应用方法,渲染方法包括:使用标定完成的多相机进行图像采集,对采集得到的彩色图像及其对应的深度和相机视角进行保存;基于采集得到的彩色图像,使用人体姿态估计算法获取人体姿态;使用人体姿态驱动可变形的结构化人体三维模型,得到人体几何外观;使用人体几何外观、彩色图像及其对应的深度和相机视角优化几何学习多层感知机;利用在物体表面的采样点优化颜色学习多层感知机;利用优化后的颜色学习多层感知机进行多视角彩色图像合成。本申请通过采用先验编码、几何学习多层感知机和颜色学习多层感知机,能够提高稀疏视角下人体和物体的渲染效果。

Description

三维人体和物体的渲染方法及其应用方法
技术领域
本申请属于图像处理技术领域,具体涉及一种三维人体和物体的渲染方法及其应用方法。
背景技术
无论是影视节目还是体育赛事,我们所看到的画面都是由单个摄像头拍摄的。在这种条件下,人们的观看视角就和相机视角牢牢地绑定在一起。为了摆脱这些限制,采用任意视角神经渲染技术,只需输入少量角度拍摄的人体镜头,便可合成360°的人体3D新视图,使得观众获得完全沉浸式的体验感受。
然而,现有的神经渲染技术无法很好地推广到显示应用中。一方面,现有的渲染技术需要非常稠密的视角来训练视角合成网络,一般需要100个相机。为了拍摄稠密的多视角视频,传统方法需要昂贵的相机阵列来进行捕捉。这套相机阵列设备特别昂贵,而且还很不方便,一般只在电影拍摄时用到。另一方面,现有的合成技术只能合成静态场景;对于动态场景,现有技术只能将单帧作为一个静态场景,对于一段120帧的人体运动视频,为了完成360°视角的观感,则需要训练120个网络来对每一帧做预测,而且各帧视频之间没有任何联系,导致计算量庞大,复杂度过高。其次,现有的任意视角合成技术需要极高的计算能力。因此,现有的渲染技术无法应用到虚拟现实眼镜中。
发明内容
为至少在一定程度上克服相关技术中存在的问题,本申请提供了一种。
根据本申请实施例的第一方面,本申请提供了一种三维人体和物体的渲染方法,其包括以下步骤:
使用标定完成的多相机进行图像采集,对采集得到的彩色图像及其对应的深度和相机视角进行保存;
基于采集得到的彩色图像,使用人体姿态估计算法获取人体姿态;
使用人体姿态驱动可变形的结构化人体三维模型,得到人体几何外观;
使用人体几何外观、彩色图像及其对应的深度和相机视角优化几何学习多层感知机;
利用在物体表面的采样点优化颜色学习多层感知机;
利用优化后的颜色学习多层感知机进行多视角彩色图像合成。
上述三维人体和物体的渲染方法中,所述使用人体几何外观、彩色图像及其对应的深度和相机视角优化几何学习多层感知机的具体过程为:
沿相机视角方向采样k个点,并获取每个采样点的向量
Figure 304180DEST_PATH_IMAGE001
进行表 示,其中,
Figure 283638DEST_PATH_IMAGE002
表示用于采样的相机的水平角度,
Figure 876424DEST_PATH_IMAGE003
表示用于采样的相机的垂直角度,
Figure 599530DEST_PATH_IMAGE004
表示采样点在空间中的位置坐标,D表示采样点在空间位置
Figure 226951DEST_PATH_IMAGE005
处的深度,
Figure 846151DEST_PATH_IMAGE006
表 示上采样后的人体几何外观在
Figure 926234DEST_PATH_IMAGE007
上的值;采样点的向量中的各元素为采样点 的先验信息;
用升维编码对采样点的先验信息进行升维处理;
将升维后得到的编码输入几何学习多层感知机
Figure 453030DEST_PATH_IMAGE008
中,预测
Figure 669379DEST_PATH_IMAGE009
个采样点 中各采样点在物体表面的概率,并根据该概率得到在物体表面的采样点;
设置几何学习多层感知机的损失函数
Figure 990639DEST_PATH_IMAGE010
Figure 10547DEST_PATH_IMAGE011
式中,mask表示物体表面上的点,Background表示不在物体表面上的点。BCE(Binary Cross Entropy Loss)表示二值交叉熵损失函数;
最小化几何学习多层感知机的损失函数
Figure 826188DEST_PATH_IMAGE012
,以优化几何学习多层感知机,直 至几何学习多层感知机收敛。
进一步地,所述采用升维编码对采样点的先验信息进行升维处理时采用以下编码函数:
Figure 411890DEST_PATH_IMAGE013
式中,L表示超参数,其控制编码函数
Figure 858046DEST_PATH_IMAGE014
输出的维度;L越大,编码函数
Figure 161988DEST_PATH_IMAGE014
输出的维度越大;
Figure 46899DEST_PATH_IMAGE015
表示编码函数
Figure 752687DEST_PATH_IMAGE014
的输入量;
Figure 900902DEST_PATH_IMAGE016
分别作为编码函数
Figure 895403DEST_PATH_IMAGE014
的输入,分别对应得到一个2L维 的向量
Figure 607442DEST_PATH_IMAGE017
根据得到的各2L维的向量,得到升维后的编码为:
Figure 370999DEST_PATH_IMAGE018
更进一步地,所述将升维后得到的编码输入几何学习多层感知机
Figure 221274DEST_PATH_IMAGE019
中,预测
Figure 234230DEST_PATH_IMAGE020
个采样点中各采样点在物体表面的概率,并根据该概率得到在物体表面的采样 点的过程为:
几何学习多层感知机
Figure 382314DEST_PATH_IMAGE021
的输出结果为[0,1];
Figure 813427DEST_PATH_IMAGE022
=1时,表示采样点在物体表面;当
Figure 818292DEST_PATH_IMAGE023
=0时,表示采样点 不在物体表面。
更进一步地,所述利用在物体表面的采样点优化颜色学习多层感知机的过程为:
将得到的物体表面的采样点输入颜色学习多层感知机
Figure 272538DEST_PATH_IMAGE024
中,输出 该采样点的颜色学习多层感知机的预测颜色值
Figure 21051DEST_PATH_IMAGE025
,即:
Figure 759200DEST_PATH_IMAGE026
设置颜色学习多层感知机的损失函数
Figure 685699DEST_PATH_IMAGE027
Figure 673246DEST_PATH_IMAGE028
式中,RGB表示真实的颜色值,
Figure 976183DEST_PATH_IMAGE029
表示颜色学习多层感知机的预测颜色值;
最小化颜色学习多层感知机的损失函数
Figure 381888DEST_PATH_IMAGE027
,以优化颜色学习多层感知机,直至 颜色学习多层感知机收敛。
根据本申请实施例的第二方面,本申请提供了一种上述任一三维人体和物体的渲染方法的应用方法,所述三维人体和物体的渲染方法应用于混合现实眼镜端中,其包括以下步骤:
将优化完成的颜色学习多层感知机部署到云服务器;
混合现实眼镜端实时获取当前佩戴者的相机视角,并将获取到的视角参数通过网络传输至云服务器;
云服务器根据混合现实眼镜端传送过来的相机视角进行多视角彩色图像合成,并将合成后的图像传输给混合现实眼镜端;
混合现实眼镜端对合成后的任意视角的彩色图像进行展示。
上述三维人体和物体的渲染方法的应用方法中,所述云服务器根据混合现实眼镜端传送过来的相机视角进行多视角彩色图像合成的具体过程为:
云服务器对接收到的混合现实眼镜端传送过来的各参数
Figure 462976DEST_PATH_IMAGE030
进行先 验信息编码;
顺次采用几何学习多层感知机
Figure 954131DEST_PATH_IMAGE031
和颜色学习多层感知机
Figure 247710DEST_PATH_IMAGE032
最终合成彩色图像。
上述三维人体和物体的渲染方法的应用方法中,所述混合现实眼镜端设置有帧质量提升模型,所述帧质量提升模型被配置为:
采用卷积提取从云服务器获取的图像的全局信息和位置信息;
采用双线性插值将从云服务器获取的图像上采样1.5倍,得到第一上采样图像;
将从云服务器获取的图像直接上采样为与第一上采样图像的相同尺寸的图像,并与第一上采样图像合并,得到第一合并图像;
采用卷积提取第一合并图像的特征,得到第二上采样图像;
将第一合并图像与第二上采样图像合并,得到第二合并图像;
采用卷积提取第二合并图像的特征,得到最终的彩色图像,该彩色图像用于在混合现实眼镜端显示。
根据本申请实施例的第三方面,本申请提供了一种三维人体和物体的渲染装置,其包括存储器以及耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器中的指令,执行上述任一项所述的三维人体和物体的渲染方法。
根据本申请实施例的第四方面,本申请还提供了一种计算机存储介质,其包括计算机程序的存储器,所述计算机程序由处理器执行,以完成上述任一项所述的三维人体和物体的渲染方法。
根据本申请的上述具体实施方式可知,至少具有以下有益效果:本申请三维人体和物体的渲染方法通过采用先验编码、几何学习多层感知机和颜色学习多层感知机,能够解决在稀疏视角下动态场景任意视角合成效果差的问题,提高稀疏视角下的人体和物体的渲染效果。
本申请三维人体和物体的渲染方法的应用方法通过在云服务器端部署优化完成的颜色学习多层感知机,在云服务器上渲染,在混合现实眼镜端显示,能够解决目前混合现实眼镜端算力较低,合成视角时间长的问题。混合现实眼镜端通过设置帧质量提升模型,能够使混合现实眼镜端实现实时现实的渲染效果
在相同图像质量的情况下,采用本申请三维人体和物体的渲染方法,所需的相机数量更少。
应了解的是,上述一般描述及以下具体实施方式仅为示例性及阐释性的,其并不能限制本申请所欲主张的范围。
附图说明
下面的所附附图是本申请的说明书的一部分,其示出了本申请的实施例,所附附图与说明书的描述一起用来说明本申请的原理。
图1为本申请具体实施方式提供的一种三维人体和物体的渲染方法的流程图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚明白,下面将以附图及详细叙述清楚说明本申请所揭示内容的精神,任何所属技术领域技术人员在了解本申请内容的实施例后,当可由本申请内容所教示的技术,加以改变及修饰,其并不脱离本申请内容的精神与范围。
本申请的示意性实施例及其说明用于解释本申请,但并不作为对本申请的限定。另外,在附图及实施方式中所使用相同或类似标号的元件/构件是用来代表相同或类似部分。
关于本文中所使用的“第一”、“第二”、…等,并非特别指称次序或顺位的意思,也非用以限定本申请,其仅为了区别以相同技术用语描述的元件或操作。
关于本文中所使用的“包含”、“包括”、“具有”、“含有”等等,均为开放性的用语,即意指包含但不限于。
关于本文中所使用的“及/或”,包括所述事物的任一或全部组合。
关于本文中的“多个”包括“两个”及“两个以上”;关于本文中的“多组”包括“两组”及“两组以上”。
关于本文中所使用的用语“大致”、“约”等,用以修饰任何可以细微变化的数量或误差,但这些微变化或误差并不会改变其本质。一般而言,此类用语所修饰的细微变化或误差的范围在部分实施例中可为20%,在部分实施例中可为10%,在部分实施例中可为5%或是其他数值。本领域技术人员应当了解,前述提及的数值可依实际需求而调整,并不以此为限。
某些用以描述本申请的用词将于下或在此说明书的别处讨论,以提供本领域技术人员在有关本申请的描述上额外的引导。
图1为本申请具体实施方式提供的一种三维人体和物体的渲染方法的流程图。
如图1所示,本申请实施例提供的三维人体和物体的渲染方法包括以下步骤:
S1、使用标定完成的多相机进行图像采集,对采集得到的彩色图像及其对应的深度和相机视角进行保存;并采用图像分割算法区分背景图像和目标图像。
其中,对多相机进行标定的过程为:
将标定物竖直放置在至少两台相机的可见范围内。具体地,标定物可以通过将一张棋盘格贴在一平面上得到。
通过调整标定物或相机的方向,为标定物拍摄多张不同方向的照片。
从照片中提取棋盘格角点信息。
估算理想无畸变的情况下相机的内参和外参。其中,相机的内参包括相机的主点坐标、焦距、畸变系数、径向畸变参数和切向畸变参数;相机的外参包括旋转参数和平移参数。
使用最小二乘法估算实际存在径向畸变情况下的畸变系数。
简单来说,相机标定是从世界坐标系转换为相机坐标系,再由相机坐标系转换为图像坐标系的过程,最终输出相机的内参和外参系数。利用内参和外参系数可以对之后相机拍摄的图像进行矫正,得到畸变相对很小的图像。
使用标定完成的多相机进行图像采集时,可以将采集到的每一帧彩色图像及其对 应的深度,以及相机的视角存储到外部存储器中。其中,相机的视角包括相机的水平角度
Figure 491609DEST_PATH_IMAGE033
和相机的垂直角度
Figure 759910DEST_PATH_IMAGE034
。记为
Figure 722050DEST_PATH_IMAGE035
采用图像分割算法区分背景图像和目标图像时,将背景图像设置为0,将目标图像设置为1。
S2、基于采集得到的彩色图像,使用人体姿态估计算法获取人体姿态。
其中,人体姿态估计算法具体可以采用OpenPose算法。
S3、使用人体姿态驱动可变形的结构化人体三维模型,得到人体几何外观。
具体地,可变形的结构化人体三维模型可以采用SMPL(A Skinned Multi-PersonLinear Model,参数化人体三维模型),SMPL是一个基于顶点的蒙皮模型,它被定义为形状参数、姿态参数和相对于SMPL坐标系的刚性变换的函数。该函数输出具有6890个顶点,使用6890个顶点表示人体几何外观。
S4、使用人体几何外观、彩色图像及其对应的深度和相机视角优化几何学习多层感知机,其包括以下步骤:
S41、沿相机视角方向采样k个点,其具体过程为:
在三维空间中,沿相机视角方向透射一条射线,在这条射线上均匀采样k个点,例如可以每隔1mm采样一个点。对于采样得到的k个点,存在两种情况,一种是该采样点在物体表面上,另一种是该采样点不在物体表面上。
对于每个采样点均可以采用一个7维向量进行表示,该7维向量为
Figure 304472DEST_PATH_IMAGE036
,此处,
Figure 934037DEST_PATH_IMAGE037
表示用于采样的相机的水平角度,
Figure 107660DEST_PATH_IMAGE038
表示用于采样的相机的垂 直角度,
Figure 760359DEST_PATH_IMAGE039
表示采样点在空间中的位置坐标,D表示采样点在空间位置
Figure 192477DEST_PATH_IMAGE040
处 的深度,
Figure 161701DEST_PATH_IMAGE041
表示上采样后的人体几何外观在
Figure 21073DEST_PATH_IMAGE042
上的值。该7维向量中的元素均为 采样点的先验信息
S42、采用升维编码对采样点的先验信息进行升维处理,具体采用以下编码函数:
Figure 646220DEST_PATH_IMAGE043
(1)
式(1)中,L表示超参数,其控制编码函数
Figure 678767DEST_PATH_IMAGE044
输出的维度。L越大,编码函数
Figure 705760DEST_PATH_IMAGE044
输出的维度越大。
Figure 532771DEST_PATH_IMAGE045
表示编码函数
Figure 441952DEST_PATH_IMAGE044
的输入量。
例如,当L=6时,将
Figure 215873DEST_PATH_IMAGE037
的值作为编码函数
Figure 894110DEST_PATH_IMAGE044
的输入,即
Figure 829705DEST_PATH_IMAGE046
,编码得到一个12 维向量。同理,将
Figure 226183DEST_PATH_IMAGE047
分别作为编码函数
Figure 803794DEST_PATH_IMAGE044
的输入,分别编码得到一个12维向 量。最终,将一个7维向量升维到84维向量,即升维后得到的编码为:
Figure 805380DEST_PATH_IMAGE048
(2)
S43、将升维后得到的编码输入几何学习多层感知机
Figure 443034DEST_PATH_IMAGE049
中,预测
Figure 779338DEST_PATH_IMAGE050
个采 样点中各采样点在物体表面的概率,并根据该概率得到在物体表面的采样点。
其中,几何学习多层感知机
Figure 645794DEST_PATH_IMAGE049
的输出结果为[0,1]。
Figure 813470DEST_PATH_IMAGE049
=1时,表示采样点在物体表面;当
Figure 107179DEST_PATH_IMAGE049
=0时,表示采样点 不在物体表面。
S44、设置几何学习多层感知机的损失函数
Figure 196358DEST_PATH_IMAGE051
Figure 132084DEST_PATH_IMAGE011
(3)
式(3)中,mask表示物体表面上的点,Background表示不在物体表面上的点。BCE(Binary Cross Entropy Loss)表示二值交叉熵损失函数,其函数表达式为:
Figure 888687DEST_PATH_IMAGE052
(4)
其中,
Figure 353298DEST_PATH_IMAGE053
为多层感知机的预测值,
Figure 195352DEST_PATH_IMAGE054
为真实分割结果。
根据式(4),当采用步骤S1得到的真实分割结果为1时,即分割得到目标图像时,
Figure 669190DEST_PATH_IMAGE055
(5)
当采用步骤S1得到的真实分割结果为0时,即分割得到背景图像时,
Figure 280300DEST_PATH_IMAGE056
(6)
通过求取式(5)和式(6)的最小值,可以达到几何学习多层感知机的损失函数
Figure 181391DEST_PATH_IMAGE057
的最小值,进而根据几何学习多层感知机的损失函数
Figure 510741DEST_PATH_IMAGE057
的最小值可以反算出
Figure 522690DEST_PATH_IMAGE050
个采样点中各采样点在物体表面的概率,并根据该概率得到在物体表面的采样点。
S45、最小化几何学习多层感知机的损失函数
Figure 191569DEST_PATH_IMAGE057
,以优化几何学习多层感知 机,直至几何学习多层感知机收敛。
S5、利用在物体表面的采样点优化颜色学习多层感知机,其包括以下步骤:
S51、将步骤S4得到的物体表面的采样点输入颜色学习多层感知机
Figure 529141DEST_PATH_IMAGE058
中,输出该采样点的颜色学习多层感知机的预测颜色值
Figure 345787DEST_PATH_IMAGE059
,即:
Figure 895848DEST_PATH_IMAGE060
(7)
S52、设置颜色学习多层感知机的损失函数
Figure 481550DEST_PATH_IMAGE061
Figure 458865DEST_PATH_IMAGE062
(8)
式(8)中,RGB表示真实的颜色值,
Figure 497228DEST_PATH_IMAGE059
表示颜色学习多层感知机的预测颜色值。
S53、最小化颜色学习多层感知机的损失函数
Figure 116559DEST_PATH_IMAGE061
,以优化颜色学习多层感知机, 直至颜色学习多层感知机收敛。
S6、利用优化后的颜色学习多层感知机进行多视角彩色图像合成。
本申请实施例提供的三维人体和物体的渲染方法通过采用先验编码、几何学习多层感知机和颜色学习多层感知机,能够解决在稀疏视角下动态场景任意视角合成效果差的问题。
基于本申请实施例提供的三维人体和物体的渲染方法,本申请实施例还提供了一种三维人体和物体的渲染方法的应用方法,三维人体和物体的渲染方法应用于混合现实眼镜端中,能够实现混合现实眼镜端的实时现实渲染,其包括以下步骤:
S7、将优化完成的颜色学习多层感知机部署到云服务器,其具体过程为:
S71、使用TensorRT技术对优化完成的颜色学习多层感知机进行打包,其过程为:
首先,将颜色学习多层感知机封装为.onnx格式的模型。
然后,使用TensorRT技术将.onnx格式的模型转换为.TRT格式的模型,以加速模型推理速度。
S72、搭建云服务器:
基于C/S架构搭建云服务器,将加速后的模型部署到云服务器,并留出服务器接口以接收混合现实眼镜端传来的视角参数。
S8、混合现实眼镜端实时获取当前佩戴者的相机视角,并将获取到的视角参数通过网络传输至云服务器。
S9、云服务器根据混合现实眼镜端传送过来的相机视角进行多视角彩色图像合成,并将合成后的图像传输给混合现实眼镜端。
其中,云服务器根据混合现实眼镜端传送过来的相机视角进行多视角彩色图像合成的具体过程为:
云服务器对接收到的混合现实眼镜端传送过来的各参数
Figure 822347DEST_PATH_IMAGE036
进行先 验信息编码;顺次采用几何学习多层感知机
Figure 423092DEST_PATH_IMAGE063
和颜色学习多层感知机
Figure 965063DEST_PATH_IMAGE064
最终合成彩色图像。
S10、混合现实眼镜端对合成后的任意视角的彩色图像进行展示。
为避免延迟和保证合成图像的传输质量,混合现实眼镜端部署有轻量级实时的帧质量提升模型,该模型可以将前一帧图像与当前帧图像关联起来。一方面可以适当降低传输过程中图像的分辨率,以降低传输的延迟;另一方面,由于无法100%保证通信网络的稳定性,因此丢包等情况比较常见,导致图像像素点丢失,图像质量差,而帧质量提升模型能够通过补全像素点来解决上述问题。
对于云服务器合成的彩色图像,可以将其尺寸缩小一半进行传输,以减少传输字节数,进而降低传输延迟。例如,云服务器合成的彩色图像的尺寸为1024×512,可以将该图像下次采样2倍,得到下采样后尺寸为512×256的图像。
帧质量提升模型的处理过程为:
采用卷积提取从云服务器获取的图像的全局信息和位置信息。
采用双线性插值将从云服务器获取的图像
Figure 106195DEST_PATH_IMAGE065
上采样1.5倍,得到第一上采样图像
Figure 417221DEST_PATH_IMAGE066
,该图像的尺寸为768×384。
将从云服务器获取的图像
Figure 251185DEST_PATH_IMAGE065
直接上采样为尺寸为768×384的图像,并与第一上采 样图像
Figure 811611DEST_PATH_IMAGE066
合并,得到第一合并图像。
采用卷积提取第一合并图像的特征,得到第二上采样图像
Figure 959695DEST_PATH_IMAGE067
,该图像的尺寸为 1024×512。
将第一合并图像与第二上采样图像
Figure 101791DEST_PATH_IMAGE067
合并,得到第二合并图像。
采用卷积提取第二合并图像的特征,得到最终的彩色图像,该彩色图像用于在混合现实眼镜端显示。
需要说明的是,卷积包括卷积层、归一化层和激活函数层,其中,卷积层的卷积核为3×3,步长为1,图像边界补一个像素点,值为0。激活函数层的激活函数为Relu。
帧质量提升模型训练与部署时,
对于采集到的颜色图像,将
Figure 372235DEST_PATH_IMAGE068
定义为采集到的颜色图像下采样1.5倍后得到的图 像,
Figure 623219DEST_PATH_IMAGE069
为原图像,误差损失为:
Figure 106153DEST_PATH_IMAGE070
将原图像
Figure 595035DEST_PATH_IMAGE069
下采样2倍后执行上述帧质量提升模型的处理过程,
Figure 770801DEST_PATH_IMAGE071
均为为帧 质量提升模型的输出。
在示例性实施例中,本申请实施例还提供了一种三维人体和物体的渲染装置,其包括存储器以及耦接至该存储器的处理器,处理器被配置为基于存储在存储器中的指令,执行本申请中任一个实施例中的三维人体和物体的渲染方法。
其中,存储器可以为系统存储器或固定非易失性存储介质等,系统存储器可以存储有操作系统、应用程序、引导装载程序、数据库以及其他程序等。
在示例性实施例中,本申请实施例还提供了一种计算机存储介质,是计算机可读存储介质,例如,包括计算机程序的存储器,上述计算机程序可由处理器执行,以完成本申请中任一个实施例中的三维人体和物体的渲染方法。
以上所述仅为本申请示意性的具体实施方式,在不脱离本申请的构思和原则的前提下,任何本领域的技术人员所做出的等同变化与修改,均应属于本申请保护的范围。

Claims (10)

1.一种三维人体和物体的渲染方法,其特征在于,包括以下步骤:
使用标定完成的多相机进行图像采集,对采集得到的彩色图像及其对应的深度和相机视角进行保存;
基于采集得到的彩色图像,使用人体姿态估计算法获取人体姿态;
使用人体姿态驱动可变形的结构化人体三维模型,得到人体几何外观;
使用人体几何外观、彩色图像及其对应的深度和相机视角优化几何学习多层感知机;
利用在物体表面的采样点优化颜色学习多层感知机;
利用优化后的颜色学习多层感知机进行多视角彩色图像合成。
2.根据权利要求1所述的三维人体和物体的渲染方法,其特征在于,所述使用人体几何外观、彩色图像及其对应的深度和相机视角优化几何学习多层感知机的具体过程为:
沿相机视角方向采样k个点,并获取每个采样点的向量
Figure 782549DEST_PATH_IMAGE001
进行表示, 其中,
Figure 69174DEST_PATH_IMAGE002
表示用于采样的相机的水平角度,
Figure 412562DEST_PATH_IMAGE003
表示用于采样的相机的垂直角度,
Figure 759229DEST_PATH_IMAGE004
表 示采样点在空间中的位置坐标,D表示采样点在空间位置
Figure 250385DEST_PATH_IMAGE005
处的深度,
Figure 75121DEST_PATH_IMAGE006
表示 上采样后的人体几何外观在
Figure 522283DEST_PATH_IMAGE005
上的值;采样点的向量中的各元素为采样点的 先验信息;
用升维编码对采样点的先验信息进行升维处理;
将升维后得到的编码输入几何学习多层感知机
Figure 56164DEST_PATH_IMAGE007
中,预测
Figure 18303DEST_PATH_IMAGE008
个采样点中 各采样点在物体表面的概率,并根据该概率得到在物体表面的采样点;
设置几何学习多层感知机的损失函数
Figure 600726DEST_PATH_IMAGE009
Figure 230290DEST_PATH_IMAGE010
式中,mask表示物体表面上的点,Background表示不在物体表面上的点;
BCE(Binary Cross Entropy Loss)表示二值交叉熵损失函数;
最小化几何学习多层感知机的损失函数
Figure 669493DEST_PATH_IMAGE011
,以优化几何学习多层感知机,直至几 何学习多层感知机收敛。
3.根据权利要求2所述的三维人体和物体的渲染方法,其特征在于,所述采用升维编码对采样点的先验信息进行升维处理时采用以下编码函数:
Figure 384508DEST_PATH_IMAGE012
式中,L表示超参数,其控制编码函数
Figure 301780DEST_PATH_IMAGE013
输出的维度;L越大,编码函数
Figure 723534DEST_PATH_IMAGE013
输出 的维度越大;
Figure 599217DEST_PATH_IMAGE014
表示编码函数
Figure 270370DEST_PATH_IMAGE013
的输入量;
Figure 256911DEST_PATH_IMAGE015
分别作为编码函数
Figure 533172DEST_PATH_IMAGE013
的输入,分别对应得到一个2L维的向量
Figure 563445DEST_PATH_IMAGE016
根据得到的各2L维的向量,得到升维后的编码为:
Figure 738205DEST_PATH_IMAGE017
4.根据权利要求3所述的三维人体和物体的渲染方法,其特征在于,所述将升维后得到 的编码输入几何学习多层感知机
Figure 449809DEST_PATH_IMAGE018
中,预测
Figure 393626DEST_PATH_IMAGE019
个采样点中各采样点在物体表面 的概率,并根据该概率得到在物体表面的采样点的过程为:
几何学习多层感知机
Figure 860379DEST_PATH_IMAGE018
的输出结果为[0,1];
Figure 256857DEST_PATH_IMAGE020
时,表示采样点在物体表面;当
Figure 568889DEST_PATH_IMAGE021
时,表示采样点不在 物体表面。
5.根据权利要求4所述的三维人体和物体的渲染方法,其特征在于,所述利用在物体表面的采样点优化颜色学习多层感知机的过程为:
将得到的物体表面的采样点输入颜色学习多层感知机
Figure 367212DEST_PATH_IMAGE022
中,输出该采样 点的颜色学习多层感知机的预测颜色值
Figure 942550DEST_PATH_IMAGE023
,即:
Figure 75591DEST_PATH_IMAGE024
设置颜色学习多层感知机的损失函数
Figure 207626DEST_PATH_IMAGE025
Figure 109723DEST_PATH_IMAGE026
式中,RGB表示真实的颜色值,
Figure 606695DEST_PATH_IMAGE027
表示颜色学习多层感知机的预测颜色值;
最小化颜色学习多层感知机的损失函数
Figure 227032DEST_PATH_IMAGE028
,以优化颜色学习多层感知机,直至颜色 学习多层感知机收敛。
6.一种如权利要求1-5任一项所述的三维人体和物体的渲染方法的应用方法,其特征在于,所述三维人体和物体的渲染方法应用于混合现实眼镜端中,其包括以下步骤:
将优化完成的颜色学习多层感知机部署到云服务器;
混合现实眼镜端实时获取当前佩戴者的相机视角,并将获取到的视角参数通过网络传输至云服务器;
云服务器根据混合现实眼镜端传送过来的相机视角进行多视角彩色图像合成,并将合成后的图像传输给混合现实眼镜端;
混合现实眼镜端对合成后的任意视角的彩色图像进行展示。
7.根据权利要求6所述的三维人体和物体的渲染方法的应用方法,其特征在于,所述云服务器根据混合现实眼镜端传送过来的相机视角进行多视角彩色图像合成的具体过程为:
云服务器对接收到的混合现实眼镜端传送过来的各参数
Figure 349709DEST_PATH_IMAGE029
进行先验 信息编码;
顺次采用几何学习多层感知机
Figure 857044DEST_PATH_IMAGE030
和颜色学习多层感知机
Figure 570922DEST_PATH_IMAGE031
最终合成彩色图像。
8.根据权利要求6所述的三维人体和物体的渲染方法的应用方法,其特征在于,所述混合现实眼镜端设置有帧质量提升模型,所述帧质量提升模型被配置为:
采用卷积提取从云服务器获取的图像的全局信息和位置信息;
采用双线性插值将从云服务器获取的图像上采样1.5倍,得到第一上采样图像;
将从云服务器获取的图像直接上采样为与第一上采样图像的相同尺寸的图像,并与第一上采样图像合并,得到第一合并图像;
采用卷积提取第一合并图像的特征,得到第二上采样图像;
将第一合并图像与第二上采样图像合并,得到第二合并图像;
采用卷积提取第二合并图像的特征,得到最终的彩色图像,该彩色图像用于在混合现实眼镜端显示。
9.一种三维人体和物体的渲染装置,其特征在于,包括存储器以及耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器中的指令,执行如权利要求1-5任一项所述的三维人体和物体的渲染方法。
10.一种计算机存储介质,其特征在于,包括计算机程序的存储器,所述计算机程序由处理器执行,以完成如权利要求1-5任一项所述的三维人体和物体的渲染方法。
CN202111117778.7A 2021-09-24 2021-09-24 三维人体和物体的渲染方法及其应用方法 Active CN113570673B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111117778.7A CN113570673B (zh) 2021-09-24 2021-09-24 三维人体和物体的渲染方法及其应用方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111117778.7A CN113570673B (zh) 2021-09-24 2021-09-24 三维人体和物体的渲染方法及其应用方法

Publications (2)

Publication Number Publication Date
CN113570673A true CN113570673A (zh) 2021-10-29
CN113570673B CN113570673B (zh) 2021-12-17

Family

ID=78174115

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111117778.7A Active CN113570673B (zh) 2021-09-24 2021-09-24 三维人体和物体的渲染方法及其应用方法

Country Status (1)

Country Link
CN (1) CN113570673B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210019928A1 (en) * 2019-07-15 2021-01-21 Disney Enterprises, Inc. Techniques for feature-based neural rendering
CN112465955A (zh) * 2020-12-10 2021-03-09 浙江大学 一种动态人体三维重建和视角合成方法
CN113112592A (zh) * 2021-04-19 2021-07-13 浙江大学 一种可驱动的隐式三维人体表示方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210019928A1 (en) * 2019-07-15 2021-01-21 Disney Enterprises, Inc. Techniques for feature-based neural rendering
CN112465955A (zh) * 2020-12-10 2021-03-09 浙江大学 一种动态人体三维重建和视角合成方法
CN113112592A (zh) * 2021-04-19 2021-07-13 浙江大学 一种可驱动的隐式三维人体表示方法

Also Published As

Publication number Publication date
CN113570673B (zh) 2021-12-17

Similar Documents

Publication Publication Date Title
WO2019149206A1 (zh) 深度估计方法和装置、电子设备、程序和介质
JP6902122B2 (ja) ダブル視野角画像較正および画像処理方法、装置、記憶媒体ならびに電子機器
KR102141319B1 (ko) 다시점 360도 영상의 초해상화 방법 및 영상처리장치
JP2004187298A (ja) パノラマ画像および全方位画像の描画および符号化
US11961266B2 (en) Multiview neural human prediction using implicit differentiable renderer for facial expression, body pose shape and clothes performance capture
CN116051740A (zh) 一种基于神经辐射场的室外无界场景三维重建方法及系统
CN113762147B (zh) 人脸表情迁移方法、装置、电子设备及存储介质
US20230154104A1 (en) UNCERTAINTY-AWARE FUSION TOWARDS LARGE-SCALE NeRF
WO2020092051A1 (en) Rolling shutter rectification in images/videos using convolutional neural networks with applications to sfm/slam with rolling shutter images/videos
WO2022208440A1 (en) Multiview neural human prediction using implicit differentiable renderer for facial expression, body pose shape and clothes performance capture
CN115375838A (zh) 一种基于无人机的双目灰度图像的三维重建方法
CN113643366B (zh) 一种多视角三维对象姿态估计方法及装置
CN117593702B (zh) 远程监控方法、装置、设备及存储介质
CN117036581B (zh) 基于二维神经渲染的体渲染方法、系统、设备及介质
CN116912148B (zh) 图像增强方法、装置、计算机设备及计算机可读存储介质
CN116843551A (zh) 一种图像处理方法、装置、电子设备及存储介质
CN113570673B (zh) 三维人体和物体的渲染方法及其应用方法
KR20230078502A (ko) 이미지 처리 장치 및 방법
CN115482368A (zh) 一种利用语义图进行三维场景编辑的方法
CN115661403A (zh) 显式辐射场的处理方法、设备和存储介质
JP6310417B2 (ja) 画像処理装置、画像処理方法及び画像処理プログラム
JP6297965B2 (ja) 画像処理装置、画像処理方法及び画像処理プログラム
WO2024007968A1 (en) Methods and system for generating an image of a human
CN117274066B (zh) 一种图像合成模型、方法、设备及存储介质
CN115439388B (zh) 基于多层神经表面表达的自由视点图像合成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PP01 Preservation of patent right

Effective date of registration: 20230810

Granted publication date: 20211217

PP01 Preservation of patent right