CN114520906A - 基于单目相机的三维人像补全方法和补全系统 - Google Patents

基于单目相机的三维人像补全方法和补全系统 Download PDF

Info

Publication number
CN114520906A
CN114520906A CN202210417444.XA CN202210417444A CN114520906A CN 114520906 A CN114520906 A CN 114520906A CN 202210417444 A CN202210417444 A CN 202210417444A CN 114520906 A CN114520906 A CN 114520906A
Authority
CN
China
Prior art keywords
image
depth
rgb
map
portrait
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210417444.XA
Other languages
English (en)
Other versions
CN114520906B (zh
Inventor
徐迪
厉行
常江
毛文涛
蔡宝军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Yingchuang Information Technology Co ltd
Original Assignee
Beijing Yingchuang Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Yingchuang Information Technology Co ltd filed Critical Beijing Yingchuang Information Technology Co ltd
Priority to CN202210417444.XA priority Critical patent/CN114520906B/zh
Publication of CN114520906A publication Critical patent/CN114520906A/zh
Application granted granted Critical
Publication of CN114520906B publication Critical patent/CN114520906B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/128Adjusting depth or disparity
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/275Image signal generators from 3D object models, e.g. computer-generated stereoscopic image signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Image Analysis (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本申请提供一种基于单目相机的三维人像补全方法及补全系统,补全方法包括以下步骤:利用标定后的相机进行人体侧面RGB图采集并保存;根据采集到的侧面RGB图得到视频帧融合后的侧面RGB图,并估计得到侧面深度图;根据得到的视频帧融合后的侧面RGB图和侧面深度图,生成正面RGB图以及正面深度图;根据正面RGB图和正面深度图构建带纹理的人体3D模型。本申请通过RGB图矫正网络和深度图矫正网络将侧面人像转换为正面人像,能够生成包含丰富几何细节的带纹理的人体3D模型。

Description

基于单目相机的三维人像补全方法和补全系统
技术领域
本申请属于图像处理技术领域,具体涉及一种基于单目相机的三维人像补全方法和补全系统。
背景技术
3D数字人体是AR/VR、虚拟试穿、全息通信、电影/游戏制作等应用中的关键技术之一。虽然高保真的3D数字人体可以通过高端采集设备(例如,通过100台相机来捕获全身几何形状)进行捕获,但是由于该技术对硬件要求高且计算复杂,因此难以在日常应用中普及。单视图重建是解决这一挑战的有效措施,其可以从扫描的人体3D模型中学习人体的3D表示。然而,这些3D扫描数据是有限的(例如,几百个静态模型),其不包含不同的姿态、外观和复杂的布料几何形状,导致3D人体重建应用于现实世界的图像中时性能下降。
另外,正面人像图比侧面人像图包含更多的信息(例如,当我们遇见一位熟识的人,我们更容易从正面将其认出),AR/VR、全球通信等应用中的3D虚拟人也多以正面展示。现有技术中基于RGB图的3D人体模型的重建方法多是基于正面人像进行学习的,当其应用于侧面人像时性能会出现明显的下降。然而,现实中人们很难拍摄出完全正面的图像。
发明内容
为至少在一定程度上克服相关技术中存在的问题,本申请提供了一种基于单目相机的三维人像补全方法和补全系统。
根据本申请实施例的第一方面,本申请提供了一种基于单目相机的三维人像补全方法,其包括以下步骤:
利用标定后的相机进行人体侧面RGB图采集并保存;
根据采集到的侧面RGB图得到视频帧融合后的侧面RGB图,并估计得到侧面深度图;
根据得到的视频帧融合后的侧面RGB图和侧面深度图,生成正面RGB图以及正面深度图;
根据正面RGB图和正面深度图构建带纹理的人体3D模型。
上述基于单目相机的三维人像补全方法中,所述根据采集到的侧面RGB图得到视频帧融合后的侧面RGB图,并估计得到侧面深度图的过程为:
将侧面RGB图输入语义分割网络,生成人体的掩码图;
将侧面RGB图输入3D先验网络,生成UV坐标图;
对侧面RGB图的前后帧的相关性进行融合,得到视频帧融合后的侧面RGB图;
对于有深度真值的人像视频数据,利用法相估计网络和深度估计网络对掩码图、UV坐标图和视频帧融合后的侧面RGB图进行估计,生成侧面深度图。
进一步地,所述根据采集到的侧面RGB图得到视频帧融合后的侧面RGB图,并估计得到侧面深度图还包括以下过程:
所述对于没有深度真值的人像视频数据,利用自监督视频深度估计网络对掩码图、UV坐标图和视频帧融合后的侧面RGB图进行估计,生成侧面深度图。
更进一步地,所述对侧面RGB图的前后帧的相关性进行融合,得到视频帧融合后的侧面RGB图的具体过程为:
假设视频的输入为
Figure 78664DEST_PATH_IMAGE001
,其中,
Figure 388423DEST_PATH_IMAGE002
表示时间维度,3表示通道维度数,H表示 高度,W表示宽度,则每帧图像的输入为
Figure 272197DEST_PATH_IMAGE003
首先,对视频进行特征提取,特征图的维度为
Figure 387920DEST_PATH_IMAGE004
然后,对于需要融合的通道,将
Figure 227700DEST_PATH_IMAGE005
时刻的特征图和
Figure 11155DEST_PATH_IMAGE006
时刻的特征图进行融 合,得到融合后的特征图;
最后,将融合后的特征图重塑为输入图像的维度
Figure 365913DEST_PATH_IMAGE007
,由此获得融合了前后 帧信息的侧面RGB图。
更进一步地,对于有深度真值的人像视频数据,所述生成侧面深度图的具体过程为:
使用法相估计网络
Figure 223011DEST_PATH_IMAGE008
对视频帧融合后的侧面RGB图和掩码图进行估计,得到 法向图A;其中,法相估计网络
Figure 730347DEST_PATH_IMAGE009
的损失函数为:
Figure 444225DEST_PATH_IMAGE010
式中,
Figure 489541DEST_PATH_IMAGE011
表示法向图A的真值;
使用深度估计网络
Figure 196335DEST_PATH_IMAGE012
对侧面RGB图、掩码图和UV坐标图进行估计,生成侧面深 度图;其中,深度估计网络
Figure 807445DEST_PATH_IMAGE013
的损失函数为:
Figure 708536DEST_PATH_IMAGE014
式中,
Figure 975569DEST_PATH_IMAGE015
表示深度图的真值;
将侧面深度图转点云,并计算每个点云
Figure 236786DEST_PATH_IMAGE016
的法向量
Figure 954600DEST_PATH_IMAGE017
;其中,法向量
Figure 213543DEST_PATH_IMAGE017
为:
Figure 30189DEST_PATH_IMAGE018
为迫使法向量
Figure 580251DEST_PATH_IMAGE019
对应的法向图B逼近法相估计网络
Figure 165953DEST_PATH_IMAGE020
估计的法向图A,引入 损失函数
Figure 595797DEST_PATH_IMAGE021
Figure 883428DEST_PATH_IMAGE022
损失函数
Figure 486447DEST_PATH_IMAGE023
的值越趋近于0表示法向图A和法向图B越接近。
进一步地,对于没有深度真值的人像视频数据,所述生成侧面深度图的具体过程为:
利用基于3D模型的翘曲函数将第
Figure 942968DEST_PATH_IMAGE024
时刻的第
Figure 278134DEST_PATH_IMAGE025
身体部分的点云转换到第
Figure 69372DEST_PATH_IMAGE026
时刻,
Figure 462701DEST_PATH_IMAGE027
式中,
Figure 22995DEST_PATH_IMAGE028
表示基于3D模型的翘曲函数,
Figure 342112DEST_PATH_IMAGE029
表示第
Figure 558330DEST_PATH_IMAGE030
时刻的 点云,
Figure 503152DEST_PATH_IMAGE031
表示相机的旋转矩阵,
Figure 167221DEST_PATH_IMAGE032
表示相机的平移矩阵。
Figure 172086DEST_PATH_IMAGE033
表示第
Figure 610020DEST_PATH_IMAGE034
身体部分的UV坐标,
Figure 843687DEST_PATH_IMAGE035
表示第
Figure 378573DEST_PATH_IMAGE036
时刻的第
Figure 540958DEST_PATH_IMAGE037
个点云;
自监督视频深度估计网络的损失函数为:
Figure 466188DEST_PATH_IMAGE038
式中,
Figure 752813DEST_PATH_IMAGE039
表示第
Figure 892939DEST_PATH_IMAGE040
时刻的第
Figure 239606DEST_PATH_IMAGE041
个点云,
Figure 963718DEST_PATH_IMAGE042
表示第
Figure 726137DEST_PATH_IMAGE043
个视频的时间集合。
上述基于单目相机的三维人像补全方法中,所述根据得到的视频帧融合后的侧面RGB图和侧面深度图,生成正面RGB图以及正面深度图的具体过程为:
利用相机参数将视频帧融合后的侧面RGB图和侧面生成的深度图转换为弱透视投影下的侧面RGB图以及弱透视投影下的侧面深度图;
利用RGB矫正网络
Figure 970037DEST_PATH_IMAGE044
将弱透视投影下的侧面RGB图生成正面RGB图;
其中,对于图像
Figure 238338DEST_PATH_IMAGE045
的像素
Figure 200478DEST_PATH_IMAGE046
,RGB矫正网络
Figure 766589DEST_PATH_IMAGE047
的损失函数为:
Figure 128911DEST_PATH_IMAGE048
式中,
Figure 817381DEST_PATH_IMAGE049
表示正面RGB图的颜色真值;
利用深度矫正网络
Figure 204500DEST_PATH_IMAGE050
将弱透视投影下的侧面深度图生成正面深度图;
其中,对于图像
Figure 121772DEST_PATH_IMAGE051
的像素
Figure 340263DEST_PATH_IMAGE052
,深度矫正网络
Figure 448902DEST_PATH_IMAGE053
的损失函数为:
Figure 57738DEST_PATH_IMAGE054
式中,
Figure 293548DEST_PATH_IMAGE055
表示正面深度图的真值;
将正面深度图转换为正面法向图,并利用鉴别器判别该法向图是否为真。
进一步地,所述根据正面RGB图和正面深度图构建带纹理的人体3D模型的具体过程为:
根据相机参数,将正面RGB图和正面深度图生成带颜色的三维点云;
根据三角剖分算法,利用带颜色的三维点云生成带纹理的人体3D模型。
根据本申请实施例的第二方面,本申请还提供了一种基于单目相机的三维人像补全系统,其采用上述任一项所述的基于单目相机的三维人像补全方法,其包括相机、第一生成模块、第二生成模块和构建模块;
所述相机用于采集人体侧面RGB图,所述第一生成模块用于根据采集到的人体侧面RGB图生成视频帧融合后的侧面RGB图和侧面深度图;所述第二生成模块用于根据侧面RGB图和侧面深度图生成正面RGB图和正面深度图;所述构建模块用于根据正面RGB图和正面深度图构建人体3D模型。
根据本申请实施例的第三方面,本申请还提供了一种存储介质,其上存储有可执行程序,当可执行程序被调用时,执行上述任一项所述的基于单目相机的三维人像补全方法中的步骤。
根据本申请的上述具体实施方式可知,至少具有以下有益效果:本申请提供的基于单目相机的三维人像补全方法通过视频学习人体深度,而无需深度图真值;通过在大量的视频中进行自监督学习,可以提高网络在现实世界中泛化性和准确性;通过RGB矫正网络和深度矫正网络将侧面人像转换为正面180度人像,能够方便后续生成包含丰富几何细节的带纹理的人体3D模型。
应了解的是,上述一般描述及以下具体实施方式仅为示例性及阐释性的,其并不能限制本申请所欲主张的范围。
附图说明
下面的所附附图是本申请的说明书的一部分,其示出了本申请的实施例,所附附图与说明书的描述一起用来说明本申请的原理。
图1为本申请具体实施方式提供的一种基于单目相机的三维人像补全方法的流程图。
图2为本申请具体实施方式提供的一种基于单目相机的三维人像补全方法中图像深度估计的示意图。
图3为本申请具体实施方式提供的一种基于单目相机的三维人像补全方法中侧面RGB图和侧面深度图转换为正面RGB图和正面深度图的示意图。
图4为本申请具体实施方式提供的一种基于单目相机的三维人像补全方法中根据正面RGB图和正面深度图,构建带颜色的人体3D模型的示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚明白,下面将以附图及详细叙述清楚说明本申请所揭示内容的精神,任何所属技术领域技术人员在了解本申请内容的实施例后,当可由本申请内容所教示的技术,加以改变及修饰,其并不脱离本申请内容的精神与范围。
本申请的示意性实施例及其说明用于解释本申请,但并不作为对本申请的限定。另外,在附图及实施方式中所使用相同或类似标号的元件/构件是用来代表相同或类似部分。
关于本文中所使用的“第一”、“第二”、…等,并非特别指称次序或顺位的意思,也非用以限定本申请,其仅为了区别以相同技术用语描述的元件或操作。
关于本文中所使用的“包含”、“包括”、“具有”、“含有”等等,均为开放性的用语,即意指包含但不限于。
关于本文中所使用的“及/或”,包括所述事物的任一或全部组合。
关于本文中的“多个”包括“两个”及“两个以上”;关于本文中的“多组”包括“两组”及“两组以上”。
某些用以描述本申请的用词将于下或在此说明书的别处讨论,以提供本领域技术人员在有关本申请的描述上额外的引导。
如图1所示,本申请实施例提供的基于单目相机的三维人像补全方法包括以下步骤:
S1、利用标定后的相机进行人体侧面RGB图采集并保存,其过程为:
S11、利用张定友标定法对相机进行标定,以获取相机参数,其具体过程为:
将标定板竖直放置在相机的可见范围内。具体地,标定板可以采用已知尺寸的棋盘格。
利用相机对标定板进行不同位姿的拍摄,得到标定板不同位姿图像。
对标定板不同位姿图像中的标定板角点进行检测,得到标定板角点的像素坐标值。
根据已知的标定板大小和世界坐标系原点,计算得到标定板角点的物理坐标值。
根据物理坐标值和像素坐标值的关系,通过单应矩阵计算出相机的内参矩阵和外参矩阵。
利用非线性最小二乘法估计相机的畸变参数。
使用极大似然估计法对相机的内参矩阵、外参矩阵和畸变参数进行优化。
S12、利用标定后的相机进行人体图像采集。
利用标定后的相机拍摄当前视频流,将每一帧的人体侧面RGB图和相机参数均存储到外部存储器。
S2、根据采集到的侧面RGB图得到视频帧融合后的侧面RGB图,并估计得到侧面深度图(Depth map),并通过自监督学习和视频帧融合方法提高深度估计的精度,其过程为:
S21、将步骤S12得到的RGB图输入语义分割网络,生成人体的掩码图。
S22、将步骤S12得到的RGB图输入3D先验网络,生成UV坐标图。
S23、为了提高后续深度估计的精度,采用视频帧融合技术对步骤S1获取的RGB图的前后帧的相关性进行融合,得到视频帧融合后的侧面RGB图。
假设视频的输入为
Figure 117278DEST_PATH_IMAGE056
,其中,
Figure 147551DEST_PATH_IMAGE057
表示时间维度,3表示通道维度数,H表示 高度,W表示宽度,则每帧图像的输入为
Figure 243683DEST_PATH_IMAGE058
首先,对视频进行特征提取,特征图的维度为
Figure 4222DEST_PATH_IMAGE059
然后,将
Figure 197306DEST_PATH_IMAGE060
时刻的特征图和
Figure 336163DEST_PATH_IMAGE061
时刻的特征图进行融合。
例如,对于第一个通道,将
Figure 732641DEST_PATH_IMAGE062
时刻的特征图与
Figure 44673DEST_PATH_IMAGE063
时刻的特征图进行融合,得 到第一个通道融合后的特征图。对于第二个通道,将
Figure 29947DEST_PATH_IMAGE064
时刻的特征图与
Figure 651290DEST_PATH_IMAGE065
时刻的特征 图进行融合,得到第二个通道融合后的特征图。
最后,将融合后的特征图重塑为输入图像的维度
Figure 784331DEST_PATH_IMAGE066
,由此获得融合了前后 帧信息的侧面RGB图。
S24、如图2所示,对于有深度真值的人像视频数据,利用法相估计网络和深度估计网络对步骤S21得到的掩码图、步骤S22得到的UV坐标图和步骤S23得到的视频帧融合后的侧面RGB图进行估计,生成侧面深度图,其具体过程为:
使用法相估计网络
Figure 837738DEST_PATH_IMAGE067
对步骤S23得到的视频帧融合后的侧面RGB图和步骤S21 得到的掩码图进行估计,得到法向图A。其中,法相估计网络
Figure 490567DEST_PATH_IMAGE068
的损失函数为:
Figure 33544DEST_PATH_IMAGE069
(1)
式(1)中,
Figure 325985DEST_PATH_IMAGE070
表示法向图A的真值。
使用深度估计网络
Figure 497597DEST_PATH_IMAGE071
对侧面RGB图、掩码图和UV坐标图进行估计,生成侧面深 度图。其中,深度估计网络
Figure 254200DEST_PATH_IMAGE072
的损失函数为:
Figure 718811DEST_PATH_IMAGE073
(2)
式(2)中,
Figure 764127DEST_PATH_IMAGE074
表示深度图的真值。
将深度图转点云,并计算每个点云
Figure 221653DEST_PATH_IMAGE075
的法向量
Figure 82031DEST_PATH_IMAGE076
。其中,法向量
Figure 232389DEST_PATH_IMAGE076
为:
Figure 499423DEST_PATH_IMAGE077
(3)
为迫使法向量
Figure 245793DEST_PATH_IMAGE078
对应的法向图B逼近法相估计网络
Figure 976988DEST_PATH_IMAGE079
估计的法向图A,引入 损失函数
Figure 235932DEST_PATH_IMAGE080
Figure 39196DEST_PATH_IMAGE081
(4)
损失函数
Figure 104104DEST_PATH_IMAGE082
的值越趋近于0表示法向图A和法向图B越接近。
S25、对于没有深度真值的人像视频数据进行自监督视频深度估计,利用自监督视频深度估计网络对步骤S21得到的掩码图、步骤S22得到的UV坐标图和步骤S23得到的视频帧融合后的侧面RGB图进行估计,生成侧面深度图,其具体过程为:
由于具有深度真值的人像数据集很有限,为了进一步提高深度估计网络的泛化性,本申请提出了自监督视频深度估计方法。该方法可以使用没有深度真值的人像数据,利用翘曲函数实现人像视频的自监督学习。该步骤是在步骤S24的深度估计网络(如图2所示)的基础上增加自监督学习。
利用基于3D模型的翘曲函数将第
Figure 706118DEST_PATH_IMAGE083
时刻的第
Figure 135962DEST_PATH_IMAGE084
身体部分的点云转换到第
Figure 954751DEST_PATH_IMAGE085
时刻, 即:
Figure 26612DEST_PATH_IMAGE086
(5)
式(5)中,
Figure 466821DEST_PATH_IMAGE087
表示基于3D模型的翘曲函数,
Figure 83878DEST_PATH_IMAGE088
表示第
Figure 78379DEST_PATH_IMAGE024
时刻 的点云,
Figure 750669DEST_PATH_IMAGE089
表示相机的旋转矩阵,
Figure 754704DEST_PATH_IMAGE090
表示相机的平移矩阵。
Figure 588668DEST_PATH_IMAGE091
表示第
Figure 70465DEST_PATH_IMAGE092
身体部分的UV坐标,
Figure 31599DEST_PATH_IMAGE093
表示第
Figure 649662DEST_PATH_IMAGE094
时刻的第
Figure 903794DEST_PATH_IMAGE095
个点云。
自监督视频深度估计网络的损失函数为:
Figure 872887DEST_PATH_IMAGE096
(6)
式(6)中,
Figure 824663DEST_PATH_IMAGE097
表示第
Figure 110282DEST_PATH_IMAGE098
时刻的第
Figure 489311DEST_PATH_IMAGE099
个点云,
Figure 945700DEST_PATH_IMAGE100
表示第
Figure 750101DEST_PATH_IMAGE101
个视频的时间集合。
S3、如图3所以,根据步骤S23得到的视频帧融合后的侧面RGB图和步骤S24得到的侧面深度图,生成正面RGB图以及正面深度图。
通常相机拍摄的图像为透视图,然而透视图存在“近大远小”的问题。为了避免该问题,本申请发明人提出将透视图转换为弱透视投影,即正交投影,并把人体缩放至固定高度。除此之外,由于人像的正面要比人像的侧面包含更多的信息,因此提出将侧面RGB图和侧面深度图对应转换为正面RGB图和正面深度图,以便于进行后续的人体重建工作。
侧面RGB图和侧面深度图转换为正面RGB图和正面深度图的示意图如图2所示。生成正面RGB图以及正面深度图的具体过程为:
S31、利用相机参数将步骤S23得到的视频帧融合后的侧面RGB图和步骤S24生成的侧面深度图转换为弱透视投影下的RGB图以及弱透视投影下的侧面深度图。
S32、利用RGB矫正网络
Figure 342756DEST_PATH_IMAGE102
将步骤S31得到的弱透视投影下的RGB图生成正面 RGB图。
其中,对于图像
Figure 955003DEST_PATH_IMAGE103
的像素
Figure 118263DEST_PATH_IMAGE104
,RGB矫正网络
Figure 474158DEST_PATH_IMAGE105
的损失函数为:
Figure 921319DEST_PATH_IMAGE106
(7)
式(7)中,
Figure 953735DEST_PATH_IMAGE107
表示正面RGB图的颜色真值。
S33、利用深度矫正网络
Figure 119137DEST_PATH_IMAGE108
将步骤S31得到的弱透视投影下的深度图生成正 面深度图。
其中,对于图像
Figure 763876DEST_PATH_IMAGE109
的像素
Figure 65545DEST_PATH_IMAGE110
,深度矫正网络
Figure 19594DEST_PATH_IMAGE111
的损失函数为:
Figure 455648DEST_PATH_IMAGE112
(8)
式(8)中,
Figure 91029DEST_PATH_IMAGE113
表示正面深度图的真值。
S34、将步骤S33得到的正面深度图转换为正面法向图,并利用鉴别器判别该法向图是否为真。
由于深度图通常较为平滑,很难表达纹理的几何细节,例如,衣服的褶皱,因此提出将深度图转换为法向图,再通过鉴别器鉴别该法向图是否为真。
具体地,当输入图像为正面法向图时,鉴别器判别为真,输出1;当输入图像为非正面法向图(例如,为背面法向图)时,鉴别器判别为假,输出0。
S4、如图4所示,根据步骤S3得到的正面RGB图和正面深度图构建带纹理的人体3D模型,其具体过程为:
S41、根据相机参数,将步骤S3得到的正面RGB图和正面深度图生成带颜色的三维点云。
S42、根据三角剖分算法,利用带颜色的三维点云生成带纹理的人体3D模型。
本申请提供的基于单目相机的三维人像补全方法采用自监督的深度估计方法,通过视频学习人体深度,而无需深度图真值;通过在大量的视频中进行自监督学习,能够提高网络在现实世界中的泛化性和准确性。本申请提供的基于单目相机的三维人像补全方法通过RGB图矫正网络和深度图矫正网络将侧面人像转换为正面人像,以便后续生成包含丰富几何细节的带纹理的人体3D模型。
基于本申请提供的基于单目相机的三维人像补全方法,本申请还提供了一种基于单目相机的三维人像补全系统,其包括相机、第一生成模块、第二生成模块和构建模块。其中,相机用于采集人体侧面RGB图,第一生成模块用于根据采集到的人体侧面RGB图生成视频帧融合后的侧面RGB图和侧面深度图。第二生成模块用于根据侧面RGB图和侧面深度图生成正面RGB图和正面深度图。构建模块用于根据正面RGB图和正面深度图构建人体3D模型。
需要说明的是:上述实施例提供的基于单目相机的三维人像补全系统仅以上述各程序模块的划分进行举例说明,实际应用中,可以根据需要而将上述处理分配由不同的程序模块完成,即将基于单目相机的三维人像补全系统的内部结构划分成不同的程序模块,以完成以上描述的全部或者部分处理。另外,上述实施例提供的基于单目相机的三维人像补全系统与基于单目相机的三维人像补全方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
在示例性实施例中,本申请实施例还提供了一种存储介质,是计算机可读存储介质,例如,包括计算机程序的存储器,上述计算机程序可由处理器执行,以完成前述基于单目相机的三维人像补全方法中的所述步骤。
上述的本申请实施例可在各种硬件、软件编码或两者组合中进行实施。例如,本申请的实施例也可为在数据信号处理器中执行上述方法的程序代码。本申请也可涉及计算机处理器、数字信号处理器、微处理器或现场可编程门阵列执行的多种功能。可根据本申请配置上述处理器执行特定任务,其通过执行定义了本申请揭示的特定方法的机器可读软件代码或固件代码来完成。可将软件代码或固件代码发展为不同的程序语言与不同的格式或形式。也可为不同的目标平台编译软件代码。然而,根据本申请执行任务的软件代码与其他类型配置代码的不同代码样式、类型与语言不脱离本申请的精神与范围。
以上所述仅为本申请示意性的具体实施方式,在不脱离本申请的构思和原则的前提下,任何本领域的技术人员所做出的等同变化与修改,均应属于本申请保护的范围。

Claims (10)

1.一种基于单目相机的三维人像补全方法,其特征在于,包括以下步骤:
利用标定后的相机进行人体侧面RGB图采集并保存;
根据采集到的侧面RGB图得到视频帧融合后的侧面RGB图,并估计得到侧面深度图;
根据得到的视频帧融合后的侧面RGB图和侧面深度图,生成正面RGB图以及正面深度图;
根据正面RGB图和正面深度图构建带纹理的人体3D模型。
2.根据权利要求1所述的基于单目相机的三维人像补全方法,其特征在于,所述根据采集到的侧面RGB图得到视频帧融合后的侧面RGB图,并估计得到侧面深度图的过程为:
将侧面RGB图输入语义分割网络,生成人体的掩码图;
将侧面RGB图输入3D先验网络,生成UV坐标图;
对侧面RGB图的前后帧的相关性进行融合,得到视频帧融合后的侧面RGB图;
对于有深度真值的人像视频数据,利用法相估计网络和深度估计网络对掩码图、UV坐标图和视频帧融合后的侧面RGB图进行估计,生成侧面深度图。
3.根据权利要求2所述的基于单目相机的三维人像补全方法,其特征在于,所述根据采集到的侧面RGB图得到视频帧融合后的侧面RGB图,并估计得到侧面深度图还包括以下过程:
所述对于没有深度真值的人像视频数据,利用自监督视频深度估计网络对掩码图、UV坐标图和视频帧融合后的侧面RGB图进行估计,生成侧面深度图。
4.根据权利要求3所述的基于单目相机的三维人像补全方法,其特征在于,所述对侧面RGB图的前后帧的相关性进行融合,得到视频帧融合后的侧面RGB图的具体过程为:
假设视频的输入为
Figure 127224DEST_PATH_IMAGE001
,其中,
Figure 857414DEST_PATH_IMAGE002
表示时间维度,3表示通道维度数,H表示高 度,W表示宽度,则每帧图像的输入为
Figure 699468DEST_PATH_IMAGE003
首先,对视频进行特征提取,特征图的维度为
Figure 406262DEST_PATH_IMAGE004
然后,对于需要融合的通道,将
Figure 282951DEST_PATH_IMAGE005
时刻的特征图和
Figure 918463DEST_PATH_IMAGE006
时刻的特征图进行融合,得 到融合后的特征图;
最后,将融合后的特征图重塑为输入图像的维度
Figure 247813DEST_PATH_IMAGE007
,由此获得融合了前后帧信 息的侧面RGB图。
5.根据权利要求4所述的基于单目相机的三维人像补全方法,其特征在于,对于有深度真值的人像视频数据,所述生成侧面深度图的具体过程为:
使用法相估计网络
Figure 446713DEST_PATH_IMAGE008
对视频帧融合后的侧面RGB图和掩码图进行估计,得到法向 图A;其中,法相估计网络
Figure 430106DEST_PATH_IMAGE009
的损失函数为:
Figure 485787DEST_PATH_IMAGE010
式中,
Figure 53165DEST_PATH_IMAGE011
表示法向图A的真值;
使用深度估计网络
Figure 852494DEST_PATH_IMAGE012
对侧面RGB图、掩码图和UV坐标图进行估计,生成侧面深度图; 其中,深度估计网络
Figure 375879DEST_PATH_IMAGE012
的损失函数为:
Figure 117308DEST_PATH_IMAGE013
式中,
Figure 421250DEST_PATH_IMAGE014
表示深度图的真值;
将侧面深度图转点云,并计算每个点云
Figure 696374DEST_PATH_IMAGE015
的法向量
Figure 152894DEST_PATH_IMAGE016
;其中,法向量
Figure 550377DEST_PATH_IMAGE017
为:
Figure 605532DEST_PATH_IMAGE018
为迫使法向量
Figure 684346DEST_PATH_IMAGE019
对应的法向图B逼近法相估计网络
Figure 57690DEST_PATH_IMAGE020
估计的法向图A,引入损失 函数
Figure 829337DEST_PATH_IMAGE021
Figure 842292DEST_PATH_IMAGE022
损失函数
Figure 36382DEST_PATH_IMAGE023
的值越趋近于0表示法向图A和法向图B越接近。
6.根据权利要求3所述的基于单目相机的三维人像补全方法,其特征在于,对于没有深度真值的人像视频数据,所述生成侧面深度图的具体过程为:
利用基于3D模型的翘曲函数将第
Figure 451183DEST_PATH_IMAGE024
时刻的第
Figure 393731DEST_PATH_IMAGE025
身体部分的点云转换到第
Figure 644715DEST_PATH_IMAGE026
时刻,
Figure 127649DEST_PATH_IMAGE027
式中,
Figure 600219DEST_PATH_IMAGE028
表示基于3D模型的翘曲函数,
Figure 28182DEST_PATH_IMAGE029
表示第
Figure 15730DEST_PATH_IMAGE030
时刻的点云,
Figure 53087DEST_PATH_IMAGE031
表示相机的旋转矩阵,
Figure 114584DEST_PATH_IMAGE032
表示相机的平移矩阵;
Figure 461252DEST_PATH_IMAGE033
表示第
Figure 185363DEST_PATH_IMAGE034
身体部分的UV坐标,
Figure 213362DEST_PATH_IMAGE035
表 示第
Figure 457262DEST_PATH_IMAGE036
时刻的第
Figure 459984DEST_PATH_IMAGE037
个点云;
自监督视频深度估计网络的损失函数为:
Figure 422123DEST_PATH_IMAGE038
式中,
Figure 988234DEST_PATH_IMAGE039
表示第
Figure 604417DEST_PATH_IMAGE040
时刻的第
Figure 27308DEST_PATH_IMAGE041
个点云,
Figure 430738DEST_PATH_IMAGE042
表示第
Figure 800540DEST_PATH_IMAGE043
个视频的时间集合。
7.根据权利要求1所述的基于单目相机的三维人像补全方法,其特征在于,所述根据得到的视频帧融合后的侧面RGB图和侧面深度图,生成正面RGB图以及正面深度图的具体过程为:
利用相机参数将视频帧融合后的侧面RGB图和侧面生成的深度图转换为弱透视投影下的侧面RGB图以及弱透视投影下的侧面深度图;
利用RGB矫正网络
Figure 550190DEST_PATH_IMAGE044
将弱透视投影下的侧面RGB图生成正面RGB图;
其中,对于图像
Figure 658829DEST_PATH_IMAGE045
的像素
Figure 267665DEST_PATH_IMAGE046
,RGB矫正网络
Figure 503474DEST_PATH_IMAGE047
的损失函数为:
Figure 592784DEST_PATH_IMAGE048
式中,
Figure 671992DEST_PATH_IMAGE049
表示正面RGB图的颜色真值;
利用深度矫正网络
Figure 830441DEST_PATH_IMAGE050
将弱透视投影下的侧面深度图生成正面深度图;
其中,对于图像
Figure 542045DEST_PATH_IMAGE051
的像素
Figure 220282DEST_PATH_IMAGE052
,深度矫正网络
Figure 421456DEST_PATH_IMAGE053
的损失函数为:
Figure 316469DEST_PATH_IMAGE054
式中,
Figure 628501DEST_PATH_IMAGE055
表示正面深度图的真值;
将正面深度图转换为正面法向图,并利用鉴别器判别该法向图是否为真。
8.根据权利要求6所述的基于单目相机的三维人像补全方法,其特征在于,所述根据正面RGB图和正面深度图构建带纹理的人体3D模型的具体过程为:
根据相机参数,将正面RGB图和正面深度图生成带颜色的三维点云;
根据三角剖分算法,利用带颜色的三维点云生成带纹理的人体3D模型。
9.一种基于单目相机的三维人像补全系统,其特征在于,采用如权利要求1-8任一项所述的基于单目相机的三维人像补全方法,其包括相机、第一生成模块、第二生成模块和构建模块;
所述相机用于采集人体侧面RGB图,所述第一生成模块用于根据采集到的人体侧面RGB图生成视频帧融合后的侧面RGB图和侧面深度图;所述第二生成模块用于根据侧面RGB图和侧面深度图生成正面RGB图和正面深度图;所述构建模块用于根据正面RGB图和正面深度图构建人体3D模型。
10.一种存储介质,其特征在于,其上存储有可执行程序,当可执行程序被调用时,执行如权利要求1-8中任一项所述的基于单目相机的三维人像补全方法中的步骤。
CN202210417444.XA 2022-04-21 2022-04-21 基于单目相机的三维人像补全方法和补全系统 Expired - Fee Related CN114520906B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210417444.XA CN114520906B (zh) 2022-04-21 2022-04-21 基于单目相机的三维人像补全方法和补全系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210417444.XA CN114520906B (zh) 2022-04-21 2022-04-21 基于单目相机的三维人像补全方法和补全系统

Publications (2)

Publication Number Publication Date
CN114520906A true CN114520906A (zh) 2022-05-20
CN114520906B CN114520906B (zh) 2022-07-05

Family

ID=81600303

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210417444.XA Expired - Fee Related CN114520906B (zh) 2022-04-21 2022-04-21 基于单目相机的三维人像补全方法和补全系统

Country Status (1)

Country Link
CN (1) CN114520906B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116193095A (zh) * 2023-01-18 2023-05-30 四川大学 一种基于单色图像实现彩色3d显示的方法
CN117057976A (zh) * 2023-08-04 2023-11-14 南通大学 一种基于局部外观流的虚拟试衣方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105786016A (zh) * 2016-03-31 2016-07-20 深圳奥比中光科技有限公司 无人机以及rgbd图像的处理方法
US20170195654A1 (en) * 2016-01-04 2017-07-06 Occipital, Inc. Apparatus and methods for three-dimensional sensing
CN109410272A (zh) * 2018-08-13 2019-03-01 国网陕西省电力公司电力科学研究 一种变压器螺母识别与定位装置及方法
CN112396694A (zh) * 2020-12-08 2021-02-23 北京工商大学 一种基于单目摄像头的3d人脸视频生成方法
CN113362446A (zh) * 2021-05-25 2021-09-07 上海奥视达智能科技有限公司 基于点云数据重建对象的方法及装置
CN113487664A (zh) * 2021-07-23 2021-10-08 香港中文大学(深圳) 三维场景感知方法、装置、电子设备、机器人及介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170195654A1 (en) * 2016-01-04 2017-07-06 Occipital, Inc. Apparatus and methods for three-dimensional sensing
CN105786016A (zh) * 2016-03-31 2016-07-20 深圳奥比中光科技有限公司 无人机以及rgbd图像的处理方法
CN109410272A (zh) * 2018-08-13 2019-03-01 国网陕西省电力公司电力科学研究 一种变压器螺母识别与定位装置及方法
CN112396694A (zh) * 2020-12-08 2021-02-23 北京工商大学 一种基于单目摄像头的3d人脸视频生成方法
CN113362446A (zh) * 2021-05-25 2021-09-07 上海奥视达智能科技有限公司 基于点云数据重建对象的方法及装置
CN113487664A (zh) * 2021-07-23 2021-10-08 香港中文大学(深圳) 三维场景感知方法、装置、电子设备、机器人及介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李伟: "三维物体几何、表观和形变重建关键技术研究", 《中国博士学位论文全文数据库 信息科技辑》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116193095A (zh) * 2023-01-18 2023-05-30 四川大学 一种基于单色图像实现彩色3d显示的方法
CN117057976A (zh) * 2023-08-04 2023-11-14 南通大学 一种基于局部外观流的虚拟试衣方法
CN117057976B (zh) * 2023-08-04 2024-03-19 南通大学 一种基于局部外观流的虚拟试衣方法

Also Published As

Publication number Publication date
CN114520906B (zh) 2022-07-05

Similar Documents

Publication Publication Date Title
US11151690B2 (en) Image super-resolution reconstruction method, mobile terminal, and computer-readable storage medium
JP6929047B2 (ja) 画像処理装置、情報処理方法及びプログラム
CN109671023B (zh) 一种人脸图像超分辨率二次重建方法
CN114520906B (zh) 基于单目相机的三维人像补全方法和补全系统
WO2020001168A1 (zh) 三维重建方法、装置、设备和存储介质
EP3816929B1 (en) Method and apparatus for restoring image
CN106981078B (zh) 视线校正方法、装置、智能会议终端及存储介质
US9710923B2 (en) Information processing system, information processing device, imaging device, and information processing method
TWI534755B (zh) 三維立體模型之建立方法和裝置
US20190141247A1 (en) Threshold determination in a ransac algorithm
WO2019169884A1 (zh) 基于深度信息的图像显著性检测方法和装置
WO2020215283A1 (zh) 人脸识别方法、处理芯片以及电子设备
CN110517304B (zh) 生成深度图的方法、装置、电子设备和存储介质
CN111080776B (zh) 人体动作三维数据采集和复现的处理方法及系统
CN114863037A (zh) 基于单手机的人体三维建模数据采集与重建方法及系统
CN104506775A (zh) 基于立体视觉匹配的图像采集抖动消除方法及装置
CN115035235A (zh) 三维重建方法及装置
CN109784215B (zh) 一种基于改进的光流法的活体检测方法及系统
WO2022179251A1 (zh) 图像处理方法及装置、电子设备、存储介质
EP4050553A1 (en) Method and device for restoring image obtained from array camera
KR20180000696A (ko) 적어도 하나의 라이트필드 카메라를 사용하여 입체 이미지 쌍을 생성하는 방법 및 장치
CN114429191A (zh) 基于深度学习的电子防抖方法、系统及存储介质
US20230245277A1 (en) Image restoration method and device
CN111696143A (zh) 一种事件数据的配准方法与系统
CN112711984A (zh) 注视点定位方法、装置和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20220705

CF01 Termination of patent right due to non-payment of annual fee