CN114520906B - 基于单目相机的三维人像补全方法和补全系统 - Google Patents

基于单目相机的三维人像补全方法和补全系统 Download PDF

Info

Publication number
CN114520906B
CN114520906B CN202210417444.XA CN202210417444A CN114520906B CN 114520906 B CN114520906 B CN 114520906B CN 202210417444 A CN202210417444 A CN 202210417444A CN 114520906 B CN114520906 B CN 114520906B
Authority
CN
China
Prior art keywords
image
depth
rgb
map
rgb image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN202210417444.XA
Other languages
English (en)
Other versions
CN114520906A (zh
Inventor
徐迪
厉行
常江
毛文涛
蔡宝军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Yingchuang Information Technology Co ltd
Original Assignee
Beijing Yingchuang Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Yingchuang Information Technology Co ltd filed Critical Beijing Yingchuang Information Technology Co ltd
Priority to CN202210417444.XA priority Critical patent/CN114520906B/zh
Publication of CN114520906A publication Critical patent/CN114520906A/zh
Application granted granted Critical
Publication of CN114520906B publication Critical patent/CN114520906B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/128Adjusting depth or disparity
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/275Image signal generators from 3D object models, e.g. computer-generated stereoscopic image signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Image Analysis (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本申请提供一种基于单目相机的三维人像补全方法及补全系统,补全方法包括以下步骤:利用标定后的相机进行人体侧面RGB图采集并保存;根据采集到的侧面RGB图得到视频帧融合后的侧面RGB图,并估计得到侧面深度图;根据得到的视频帧融合后的侧面RGB图和侧面深度图,生成正面RGB图以及正面深度图;根据正面RGB图和正面深度图构建带纹理的人体3D模型。本申请通过RGB图矫正网络和深度图矫正网络将侧面人像转换为正面人像,能够生成包含丰富几何细节的带纹理的人体3D模型。

Description

基于单目相机的三维人像补全方法和补全系统
技术领域
本申请属于图像处理技术领域,具体涉及一种基于单目相机的三维人像补全方法和补全系统。
背景技术
3D数字人体是AR/VR、虚拟试穿、全息通信、电影/游戏制作等应用中的关键技术之一。虽然高保真的3D数字人体可以通过高端采集设备(例如,通过100台相机来捕获全身几何形状)进行捕获,但是由于该技术对硬件要求高且计算复杂,因此难以在日常应用中普及。单视图重建是解决这一挑战的有效措施,其可以从扫描的人体3D模型中学习人体的3D表示。然而,这些3D扫描数据是有限的(例如,几百个静态模型),其不包含不同的姿态、外观和复杂的布料几何形状,导致3D人体重建应用于现实世界的图像中时性能下降。
另外,正面人像图比侧面人像图包含更多的信息(例如,当我们遇见一位熟识的人,我们更容易从正面将其认出),AR/VR、全球通信等应用中的3D虚拟人也多以正面展示。现有技术中基于RGB图的3D人体模型的重建方法多是基于正面人像进行学习的,当其应用于侧面人像时性能会出现明显的下降。然而,现实中人们很难拍摄出完全正面的图像。
发明内容
为至少在一定程度上克服相关技术中存在的问题,本申请提供了一种基于单目相机的三维人像补全方法和补全系统。
根据本申请实施例的第一方面,本申请提供了一种基于单目相机的三维人像补全方法,其包括以下步骤:
利用标定后的相机进行人体侧面RGB图采集并保存;
根据采集到的侧面RGB图得到视频帧融合后的侧面RGB图,并估计得到侧面深度图;
根据得到的视频帧融合后的侧面RGB图和侧面深度图,生成正面RGB图以及正面深度图;
根据正面RGB图和正面深度图构建带纹理的人体3D模型。
上述基于单目相机的三维人像补全方法中,所述根据采集到的侧面RGB图得到视频帧融合后的侧面RGB图,并估计得到侧面深度图的过程为:
将侧面RGB图输入语义分割网络,生成人体的掩码图;
将侧面RGB图输入3D先验网络,生成UV坐标图;
对侧面RGB图的前后帧的相关性进行融合,得到视频帧融合后的侧面RGB图;
对于有深度真值的人像视频数据,利用法向估计网络和深度估计网络对掩码图、UV坐标图和视频帧融合后的侧面RGB图进行估计,生成侧面深度图。
进一步地,所述根据采集到的侧面RGB图得到视频帧融合后的侧面RGB图,并估计得到侧面深度图还包括以下过程:
所述对于没有深度真值的人像视频数据,利用自监督视频深度估计网络对掩码图、UV坐标图和视频帧融合后的侧面RGB图进行估计,生成侧面深度图。
更进一步地,所述对侧面RGB图的前后帧的相关性进行融合,得到视频帧融合后的侧面RGB图的具体过程为:
假设视频的输入为
Figure 100002_DEST_PATH_IMAGE001
,其中,
Figure 175187DEST_PATH_IMAGE002
表示时间维度,3表示通道维度数,H表示高度,W表示宽度,则每帧图像的输入为
Figure 100002_DEST_PATH_IMAGE003
首先,对视频进行特征提取,特征图的维度为
Figure 760889DEST_PATH_IMAGE004
然后,对于需要融合的通道,将
Figure 100002_DEST_PATH_IMAGE005
时刻的特征图和
Figure 66100DEST_PATH_IMAGE006
时刻的特征图进行融合,得到融合后的特征图;
最后,将融合后的特征图重塑为输入图像的维度
Figure 100002_DEST_PATH_IMAGE007
,由此获得融合了前后帧信息的侧面RGB图。
更进一步地,对于有深度真值的人像视频数据,所述生成侧面深度图的具体过程为:
使用法向估计网络
Figure 183091DEST_PATH_IMAGE008
对视频帧融合后的侧面RGB图和掩码图进行估计,得到法向图A;其中,法向估计网络
Figure 100002_DEST_PATH_IMAGE009
的损失函数为:
Figure 330651DEST_PATH_IMAGE010
式中,
Figure 100002_DEST_PATH_IMAGE011
表示法向图A的真值;
使用深度估计网络
Figure 849488DEST_PATH_IMAGE012
对侧面RGB图、掩码图和UV坐标图进行估计,生成侧面深度图;其中,深度估计网络
Figure 997704DEST_PATH_IMAGE012
的损失函数为:
Figure 100002_DEST_PATH_IMAGE013
式中,
Figure 601992DEST_PATH_IMAGE014
表示深度图的真值;
将侧面深度图转点云,并计算每个点云
Figure 100002_DEST_PATH_IMAGE015
的法向量
Figure 743123DEST_PATH_IMAGE016
;其中,法向量
Figure 57080DEST_PATH_IMAGE016
为:
Figure 100002_DEST_PATH_IMAGE017
为迫使法向量
Figure 891044DEST_PATH_IMAGE016
对应的法向图B逼近法向估计网络
Figure 654731DEST_PATH_IMAGE018
估计的法向图A,引入损失函数
Figure 100002_DEST_PATH_IMAGE019
Figure 412603DEST_PATH_IMAGE020
损失函数
Figure 100002_DEST_PATH_IMAGE021
的值越趋近于0表示法向图A和法向图B越接近。
进一步地,对于没有深度真值的人像视频数据,所述生成侧面深度图的具体过程为:
利用基于3D模型的翘曲函数将第
Figure 100002_DEST_PATH_IMAGE023
时刻的第
Figure 640453DEST_PATH_IMAGE024
身体部分的点云转换到第
Figure 100002_DEST_PATH_IMAGE025
时刻,
Figure 645318DEST_PATH_IMAGE026
式中,
Figure 100002_DEST_PATH_IMAGE027
表示基于3D模型的翘曲函数,
Figure 893372DEST_PATH_IMAGE028
表示第
Figure 100002_DEST_PATH_IMAGE029
时刻的点云,
Figure 376306DEST_PATH_IMAGE030
表示相机的旋转矩阵,
Figure 100002_DEST_PATH_IMAGE031
表示相机的平移矩阵。
Figure 661925DEST_PATH_IMAGE032
表示第
Figure 100002_DEST_PATH_IMAGE033
身体部分的UV坐标,
Figure 650741DEST_PATH_IMAGE034
表示第
Figure 575972DEST_PATH_IMAGE036
时刻的第
Figure DEST_PATH_IMAGE037
个点云;
自监督视频深度估计网络的损失函数为:
Figure 941225DEST_PATH_IMAGE038
式中,
Figure 100002_DEST_PATH_IMAGE039
表示第
Figure 806982DEST_PATH_IMAGE040
时刻的第
Figure 100002_DEST_PATH_IMAGE041
个点云,
Figure 419229DEST_PATH_IMAGE042
表示第
Figure 100002_DEST_PATH_IMAGE043
个视频的时间集合。
上述基于单目相机的三维人像补全方法中,所述根据得到的视频帧融合后的侧面RGB图和侧面深度图,生成正面RGB图以及正面深度图的具体过程为:
利用相机参数将视频帧融合后的侧面RGB图和侧面生成的深度图转换为弱透视投影下的侧面RGB图以及弱透视投影下的侧面深度图;
利用RGB矫正网络
Figure 644805DEST_PATH_IMAGE044
将弱透视投影下的侧面RGB图生成正面RGB图;
其中,对于图像
Figure 100002_DEST_PATH_IMAGE045
的像素
Figure 700DEST_PATH_IMAGE046
,RGB矫正网络
Figure 100002_DEST_PATH_IMAGE047
的损失函数为:
Figure 995332DEST_PATH_IMAGE048
式中,
Figure 100002_DEST_PATH_IMAGE049
表示正面RGB图的颜色真值;
利用深度矫正网络
Figure 512901DEST_PATH_IMAGE050
将弱透视投影下的侧面深度图生成正面深度图;
其中,对于图像
Figure 100002_DEST_PATH_IMAGE051
的像素
Figure 756932DEST_PATH_IMAGE052
,深度矫正网络
Figure 100002_DEST_PATH_IMAGE053
的损失函数为:
Figure 664320DEST_PATH_IMAGE054
式中,
Figure 100002_DEST_PATH_IMAGE055
表示正面深度图的真值;
将正面深度图转换为正面法向图,并利用鉴别器判别该法向图是否为真。
进一步地,所述根据正面RGB图和正面深度图构建带纹理的人体3D模型的具体过程为:
根据相机参数,将正面RGB图和正面深度图生成带颜色的三维点云;
根据三角剖分算法,利用带颜色的三维点云生成带纹理的人体3D模型。
根据本申请实施例的第二方面,本申请还提供了一种基于单目相机的三维人像补全系统,其采用上述任一项所述的基于单目相机的三维人像补全方法,其包括相机、第一生成模块、第二生成模块和构建模块;
所述相机用于采集人体侧面RGB图,所述第一生成模块用于根据采集到的人体侧面RGB图生成视频帧融合后的侧面RGB图和侧面深度图;所述第二生成模块用于根据侧面RGB图和侧面深度图生成正面RGB图和正面深度图;所述构建模块用于根据正面RGB图和正面深度图构建人体3D模型。
根据本申请实施例的第三方面,本申请还提供了一种存储介质,其上存储有可执行程序,当可执行程序被调用时,执行上述任一项所述的基于单目相机的三维人像补全方法中的步骤。
根据本申请的上述具体实施方式可知,至少具有以下有益效果:本申请提供的基于单目相机的三维人像补全方法通过视频学习人体深度,而无需深度图真值;通过在大量的视频中进行自监督学习,可以提高网络在现实世界中泛化性和准确性;通过RGB矫正网络和深度矫正网络将侧面人像转换为正面180度人像,能够方便后续生成包含丰富几何细节的带纹理的人体3D模型。
应了解的是,上述一般描述及以下具体实施方式仅为示例性及阐释性的,其并不能限制本申请所欲主张的范围。
附图说明
下面的所附附图是本申请的说明书的一部分,其示出了本申请的实施例,所附附图与说明书的描述一起用来说明本申请的原理。
图1为本申请具体实施方式提供的一种基于单目相机的三维人像补全方法的流程图。
图2为本申请具体实施方式提供的一种基于单目相机的三维人像补全方法中图像深度估计的示意图。
图3为本申请具体实施方式提供的一种基于单目相机的三维人像补全方法中侧面RGB图和侧面深度图转换为正面RGB图和正面深度图的示意图。
图4为本申请具体实施方式提供的一种基于单目相机的三维人像补全方法中根据正面RGB图和正面深度图,构建带颜色的人体3D模型的示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚明白,下面将以附图及详细叙述清楚说明本申请所揭示内容的精神,任何所属技术领域技术人员在了解本申请内容的实施例后,当可由本申请内容所教示的技术,加以改变及修饰,其并不脱离本申请内容的精神与范围。
本申请的示意性实施例及其说明用于解释本申请,但并不作为对本申请的限定。另外,在附图及实施方式中所使用相同或类似标号的元件/构件是用来代表相同或类似部分。
关于本文中所使用的“第一”、“第二”、…等,并非特别指称次序或顺位的意思,也非用以限定本申请,其仅为了区别以相同技术用语描述的元件或操作。
关于本文中所使用的“包含”、“包括”、“具有”、“含有”等等,均为开放性的用语,即意指包含但不限于。
关于本文中所使用的“及/或”,包括所述事物的任一或全部组合。
关于本文中的“多个”包括“两个”及“两个以上”;关于本文中的“多组”包括“两组”及“两组以上”。
某些用以描述本申请的用词将于下或在此说明书的别处讨论,以提供本领域技术人员在有关本申请的描述上额外的引导。
如图1所示,本申请实施例提供的基于单目相机的三维人像补全方法包括以下步骤:
S1、利用标定后的相机进行人体侧面RGB图采集并保存,其过程为:
S11、利用张定友标定法对相机进行标定,以获取相机参数,其具体过程为:
将标定板竖直放置在相机的可见范围内。具体地,标定板可以采用已知尺寸的棋盘格。
利用相机对标定板进行不同位姿的拍摄,得到标定板不同位姿图像。
对标定板不同位姿图像中的标定板角点进行检测,得到标定板角点的像素坐标值。
根据已知的标定板大小和世界坐标系原点,计算得到标定板角点的物理坐标值。
根据物理坐标值和像素坐标值的关系,通过单应矩阵计算出相机的内参矩阵和外参矩阵。
利用非线性最小二乘法估计相机的畸变参数。
使用极大似然估计法对相机的内参矩阵、外参矩阵和畸变参数进行优化。
S12、利用标定后的相机进行人体图像采集。
利用标定后的相机拍摄当前视频流,将每一帧的人体侧面RGB图和相机参数均存储到外部存储器。
S2、根据采集到的侧面RGB图得到视频帧融合后的侧面RGB图,并估计得到侧面深度图(Depth map),并通过自监督学习和视频帧融合方法提高深度估计的精度,其过程为:
S21、将步骤S12得到的RGB图输入语义分割网络,生成人体的掩码图。
S22、将步骤S12得到的RGB图输入3D先验网络,生成UV坐标图。
S23、为了提高后续深度估计的精度,采用视频帧融合技术对步骤S1获取的RGB图的前后帧的相关性进行融合,得到视频帧融合后的侧面RGB图。
假设视频的输入为
Figure 310197DEST_PATH_IMAGE056
,其中,
Figure 100002_DEST_PATH_IMAGE057
表示时间维度,3表示通道维度数,H表示高度,W表示宽度,则每帧图像的输入为
Figure 264246DEST_PATH_IMAGE058
首先,对视频进行特征提取,特征图的维度为
Figure 100002_DEST_PATH_IMAGE059
然后,将
Figure 729994DEST_PATH_IMAGE060
时刻的特征图和
Figure 100002_DEST_PATH_IMAGE061
时刻的特征图进行融合。
例如,对于第一个通道,将
Figure 444003DEST_PATH_IMAGE062
时刻的特征图与
Figure 131336DEST_PATH_IMAGE063
时刻的特征图进行融合,得到第一个通道融合后的特征图。对于第二个通道,将
Figure 459549DEST_PATH_IMAGE062
时刻的特征图与
Figure 884364DEST_PATH_IMAGE063
时刻的特征图进行融合,得到第二个通道融合后的特征图。
最后,将融合后的特征图重塑为输入图像的维度
Figure 854594DEST_PATH_IMAGE064
,由此获得融合了前后帧信息的侧面RGB图。
S24、如图2所示,对于有深度真值的人像视频数据,利用法向估计网络和深度估计网络对步骤S21得到的掩码图、步骤S22得到的UV坐标图和步骤S23得到的视频帧融合后的侧面RGB图进行估计,生成侧面深度图,其具体过程为:
使用法向估计网络
Figure 147166DEST_PATH_IMAGE065
对步骤S23得到的视频帧融合后的侧面RGB图和步骤S21得到的掩码图进行估计,得到法向图A。其中,法向估计网络
Figure 911860DEST_PATH_IMAGE065
的损失函数为:
Figure 539151DEST_PATH_IMAGE066
(1)
式(1)中,
Figure 798225DEST_PATH_IMAGE067
表示法向图A的真值。
使用深度估计网络
Figure 194571DEST_PATH_IMAGE068
对侧面RGB图、掩码图和UV坐标图进行估计,生成侧面深度图。其中,深度估计网络
Figure 864587DEST_PATH_IMAGE068
的损失函数为:
Figure 244752DEST_PATH_IMAGE069
(2)
式(2)中,
Figure 776359DEST_PATH_IMAGE070
表示深度图的真值。
将深度图转点云,并计算每个点云
Figure 558370DEST_PATH_IMAGE071
的法向量
Figure 399287DEST_PATH_IMAGE072
。其中,法向量
Figure 14552DEST_PATH_IMAGE072
为:
Figure 599117DEST_PATH_IMAGE073
(3)
为迫使法向量
Figure 970056DEST_PATH_IMAGE074
对应的法向图B逼近法向估计网络
Figure 981874DEST_PATH_IMAGE075
估计的法向图A,引入损失函数
Figure 821785DEST_PATH_IMAGE076
Figure 741199DEST_PATH_IMAGE077
(4)
损失函数
Figure 248535DEST_PATH_IMAGE078
的值越趋近于0表示法向图A和法向图B越接近。
S25、对于没有深度真值的人像视频数据进行自监督视频深度估计,利用自监督视频深度估计网络对步骤S21得到的掩码图、步骤S22得到的UV坐标图和步骤S23得到的视频帧融合后的侧面RGB图进行估计,生成侧面深度图,其具体过程为:
由于具有深度真值的人像数据集很有限,为了进一步提高深度估计网络的泛化性,本申请提出了自监督视频深度估计方法。该方法可以使用没有深度真值的人像数据,利用翘曲函数实现人像视频的自监督学习。该步骤是在步骤S24的深度估计网络(如图2所示)的基础上增加自监督学习。
利用基于3D模型的翘曲函数将第
Figure 696834DEST_PATH_IMAGE079
时刻的第
Figure 273309DEST_PATH_IMAGE080
身体部分的点云转换到第
Figure 215988DEST_PATH_IMAGE081
时刻,即:
Figure 561519DEST_PATH_IMAGE082
(5)
式(5)中,
Figure 180719DEST_PATH_IMAGE083
表示基于3D模型的翘曲函数,
Figure 9871DEST_PATH_IMAGE084
表示第
Figure 5509DEST_PATH_IMAGE086
时刻的点云,
Figure 939967DEST_PATH_IMAGE087
表示相机的旋转矩阵,
Figure 11959DEST_PATH_IMAGE089
表示相机的平移矩阵。
Figure 297447DEST_PATH_IMAGE090
表示第
Figure 565617DEST_PATH_IMAGE091
身体部分的UV坐标,
Figure 636473DEST_PATH_IMAGE092
表示第
Figure 863055DEST_PATH_IMAGE093
时刻的第
Figure 386571DEST_PATH_IMAGE094
个点云。
自监督视频深度估计网络的损失函数为:
Figure DEST_PATH_IMAGE095
(6)
式(6)中,
Figure 255170DEST_PATH_IMAGE096
表示第
Figure DEST_PATH_IMAGE097
时刻的第
Figure 708760DEST_PATH_IMAGE098
个点云,
Figure DEST_PATH_IMAGE099
表示第
Figure 371823DEST_PATH_IMAGE100
个视频的时间集合。
S3、如图3所以,根据步骤S23得到的视频帧融合后的侧面RGB图和步骤S24得到的侧面深度图,生成正面RGB图以及正面深度图。
通常相机拍摄的图像为透视图,然而透视图存在“近大远小”的问题。为了避免该问题,本申请发明人提出将透视图转换为弱透视投影,即正交投影,并把人体缩放至固定高度。除此之外,由于人像的正面要比人像的侧面包含更多的信息,因此提出将侧面RGB图和侧面深度图对应转换为正面RGB图和正面深度图,以便于进行后续的人体重建工作。
侧面RGB图和侧面深度图转换为正面RGB图和正面深度图的示意图如图2所示。生成正面RGB图以及正面深度图的具体过程为:
S31、利用相机参数将步骤S23得到的视频帧融合后的侧面RGB图和步骤S24生成的侧面深度图转换为弱透视投影下的RGB图以及弱透视投影下的侧面深度图。
S32、利用RGB矫正网络
Figure DEST_PATH_IMAGE101
将步骤S31得到的弱透视投影下的RGB图生成正面RGB图。
其中,对于图像
Figure 913794DEST_PATH_IMAGE102
的像素
Figure DEST_PATH_IMAGE103
,RGB矫正网络
Figure 320504DEST_PATH_IMAGE104
的损失函数为:
Figure DEST_PATH_IMAGE105
(7)
式(7)中,
Figure 631531DEST_PATH_IMAGE106
表示正面RGB图的颜色真值。
S33、利用深度矫正网络
Figure DEST_PATH_IMAGE107
将步骤S31得到的弱透视投影下的深度图生成正面深度图。
其中,对于图像
Figure 216227DEST_PATH_IMAGE108
的像素
Figure DEST_PATH_IMAGE109
,深度矫正网络
Figure 760341DEST_PATH_IMAGE110
的损失函数为:
Figure DEST_PATH_IMAGE111
(8)
式(8)中,
Figure 458826DEST_PATH_IMAGE112
表示正面深度图的真值。
S34、将步骤S33得到的正面深度图转换为正面法向图,并利用鉴别器判别该法向图是否为真。
由于深度图通常较为平滑,很难表达纹理的几何细节,例如,衣服的褶皱,因此提出将深度图转换为法向图,再通过鉴别器鉴别该法向图是否为真。
具体地,当输入图像为正面法向图时,鉴别器判别为真,输出1;当输入图像为非正面法向图(例如,为背面法向图)时,鉴别器判别为假,输出0。
S4、如图4所示,根据步骤S3得到的正面RGB图和正面深度图构建带纹理的人体3D模型,其具体过程为:
S41、根据相机参数,将步骤S3得到的正面RGB图和正面深度图生成带颜色的三维点云。
S42、根据三角剖分算法,利用带颜色的三维点云生成带纹理的人体3D模型。
本申请提供的基于单目相机的三维人像补全方法采用自监督的深度估计方法,通过视频学习人体深度,而无需深度图真值;通过在大量的视频中进行自监督学习,能够提高网络在现实世界中的泛化性和准确性。本申请提供的基于单目相机的三维人像补全方法通过RGB图矫正网络和深度图矫正网络将侧面人像转换为正面人像,以便后续生成包含丰富几何细节的带纹理的人体3D模型。
基于本申请提供的基于单目相机的三维人像补全方法,本申请还提供了一种基于单目相机的三维人像补全系统,其包括相机、第一生成模块、第二生成模块和构建模块。其中,相机用于采集人体侧面RGB图,第一生成模块用于根据采集到的人体侧面RGB图生成视频帧融合后的侧面RGB图和侧面深度图。第二生成模块用于根据侧面RGB图和侧面深度图生成正面RGB图和正面深度图。构建模块用于根据正面RGB图和正面深度图构建人体3D模型。
需要说明的是:上述实施例提供的基于单目相机的三维人像补全系统仅以上述各程序模块的划分进行举例说明,实际应用中,可以根据需要而将上述处理分配由不同的程序模块完成,即将基于单目相机的三维人像补全系统的内部结构划分成不同的程序模块,以完成以上描述的全部或者部分处理。另外,上述实施例提供的基于单目相机的三维人像补全系统与基于单目相机的三维人像补全方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
在示例性实施例中,本申请实施例还提供了一种存储介质,是计算机可读存储介质,例如,包括计算机程序的存储器,上述计算机程序可由处理器执行,以完成前述基于单目相机的三维人像补全方法中的所述步骤。
上述的本申请实施例可在各种硬件、软件编码或两者组合中进行实施。例如,本申请的实施例也可为在数据信号处理器中执行上述方法的程序代码。本申请也可涉及计算机处理器、数字信号处理器、微处理器或现场可编程门阵列执行的多种功能。可根据本申请配置上述处理器执行特定任务,其通过执行定义了本申请揭示的特定方法的机器可读软件代码或固件代码来完成。可将软件代码或固件代码发展为不同的程序语言与不同的格式或形式。也可为不同的目标平台编译软件代码。然而,根据本申请执行任务的软件代码与其他类型配置代码的不同代码样式、类型与语言不脱离本申请的精神与范围。
以上所述仅为本申请示意性的具体实施方式,在不脱离本申请的构思和原则的前提下,任何本领域的技术人员所做出的等同变化与修改,均应属于本申请保护的范围。

Claims (9)

1.一种基于单目相机的三维人像补全方法,其特征在于,包括以下步骤:
利用标定后的相机进行人体侧面RGB图采集并保存;
根据采集到的侧面RGB图和侧面RGB图的前后帧得到视频帧融合后的侧面RGB图,并估计得到侧面深度图;
根据得到的视频帧融合后的侧面RGB图和侧面深度图,生成正面RGB图以及正面深度图,其具体过程为:
利用相机参数将视频帧融合后的侧面RGB图和侧面生成的深度图转换为弱透视投影下的侧面RGB图以及弱透视投影下的侧面深度图;
利用RGB矫正网络
Figure DEST_PATH_IMAGE001
将弱透视投影下的侧面RGB图生成正面RGB图;
其中,对于图像
Figure 340006DEST_PATH_IMAGE002
的像素
Figure DEST_PATH_IMAGE003
,RGB矫正网络
Figure 780346DEST_PATH_IMAGE001
的损失函数为:
Figure 928169DEST_PATH_IMAGE004
式中,
Figure DEST_PATH_IMAGE005
表示正面RGB图的颜色真值;
利用深度矫正网络
Figure 262198DEST_PATH_IMAGE006
将弱透视投影下的侧面深度图生成正面深度图;
其中,对于图像
Figure 73159DEST_PATH_IMAGE002
的像素
Figure 187746DEST_PATH_IMAGE003
,深度矫正网络
Figure DEST_PATH_IMAGE007
的损失函数为:
Figure 277275DEST_PATH_IMAGE008
式中,
Figure DEST_PATH_IMAGE009
表示正面深度图的真值;
将正面深度图转换为正面法向图,并利用鉴别器判别该法向图是否为真;
根据正面RGB图和正面深度图构建带纹理的人体3D模型。
2.根据权利要求1所述的基于单目相机的三维人像补全方法,其特征在于,所述根据采集到的侧面RGB图得到视频帧融合后的侧面RGB图,并估计得到侧面深度图的过程为:
将侧面RGB图输入语义分割网络,生成人体的掩码图;
将侧面RGB图输入3D先验网络,生成UV坐标图;
对侧面RGB图的前后帧的相关性进行融合,得到视频帧融合后的侧面RGB图;
对于有深度真值的人像视频数据,利用法向估计网络和深度估计网络对掩码图、UV坐标图和视频帧融合后的侧面RGB图进行估计,生成侧面深度图。
3.根据权利要求2所述的基于单目相机的三维人像补全方法,其特征在于,所述根据采集到的侧面RGB图得到视频帧融合后的侧面RGB图,并估计得到侧面深度图还包括以下过程:
对于没有深度真值的人像视频数据,利用自监督视频深度估计网络对掩码图、UV坐标图和视频帧融合后的侧面RGB图进行估计,生成侧面深度图。
4.根据权利要求3所述的基于单目相机的三维人像补全方法,其特征在于,所述对侧面RGB图的前后帧的相关性进行融合,得到视频帧融合后的侧面RGB图的具体过程为:
假设视频的输入为
Figure 731390DEST_PATH_IMAGE010
,其中,
Figure DEST_PATH_IMAGE011
表示时间维度,3表示通道维度数,H表示高度,W表示宽度,则每帧图像的输入为
Figure 119777DEST_PATH_IMAGE012
首先,对视频进行特征提取,特征图的维度为
Figure DEST_PATH_IMAGE013
然后,对于需要融合的通道,将
Figure 157878DEST_PATH_IMAGE014
时刻的特征图和
Figure DEST_PATH_IMAGE015
时刻的特征图进行融合,得到融合后的特征图;
最后,将融合后的特征图重塑为输入图像的维度
Figure 617809DEST_PATH_IMAGE016
,由此获得融合了前后帧信息的侧面RGB图。
5.根据权利要求4所述的基于单目相机的三维人像补全方法,其特征在于,对于有深度真值的人像视频数据,所述生成侧面深度图的具体过程为:
使用法向估计网络
Figure DEST_PATH_IMAGE017
对视频帧融合后的侧面RGB图和掩码图进行估计,得到法向图A;其中,法向估计网络
Figure 332955DEST_PATH_IMAGE017
的损失函数为:
Figure 813615DEST_PATH_IMAGE018
式中,
Figure DEST_PATH_IMAGE019
表示法向图A的真值;
使用深度估计网络
Figure 482887DEST_PATH_IMAGE020
对侧面RGB图、掩码图和UV坐标图进行估计,生成侧面深度图;其中,深度估计网络
Figure DEST_PATH_IMAGE021
的损失函数为:
Figure 277668DEST_PATH_IMAGE022
式中,
Figure DEST_PATH_IMAGE023
表示深度图的真值;
将侧面深度图转点云,并计算每个点云
Figure 345856DEST_PATH_IMAGE024
的法向量
Figure DEST_PATH_IMAGE025
;其中,法向量
Figure 935100DEST_PATH_IMAGE025
为:
Figure 918100DEST_PATH_IMAGE026
为迫使法向量
Figure 250992DEST_PATH_IMAGE025
对应的法向图B逼近法向估计网络
Figure DEST_PATH_IMAGE027
估计的法向图A,引入损失函数
Figure 233074DEST_PATH_IMAGE028
Figure DEST_PATH_IMAGE029
损失函数
Figure 258798DEST_PATH_IMAGE030
的值越趋近于0表示法向图A和法向图B越接近。
6.根据权利要求3所述的基于单目相机的三维人像补全方法,其特征在于,对于没有深度真值的人像视频数据,所述生成侧面深度图的具体过程为:
利用基于3D模型的翘曲函数将第
Figure DEST_PATH_IMAGE031
时刻的第
Figure 401198DEST_PATH_IMAGE032
身体部分的点云转换到第
Figure DEST_PATH_IMAGE033
时刻,
Figure 36316DEST_PATH_IMAGE034
式中,
Figure DEST_PATH_IMAGE035
表示基于3D模型的翘曲函数,
Figure 377299DEST_PATH_IMAGE036
表示第
Figure 573925DEST_PATH_IMAGE038
时刻的点云,
Figure DEST_PATH_IMAGE039
表示相机的旋转矩阵,
Figure 265938DEST_PATH_IMAGE040
表示相机的平移矩阵,
Figure DEST_PATH_IMAGE041
表示第
Figure 379781DEST_PATH_IMAGE042
身体部分的UV坐标,
Figure DEST_PATH_IMAGE043
表示第
Figure 840849DEST_PATH_IMAGE044
时刻的第
Figure DEST_PATH_IMAGE045
个点云;
自监督视频深度估计网络的损失函数为:
Figure 208376DEST_PATH_IMAGE046
式中,
Figure DEST_PATH_IMAGE047
表示第
Figure 620641DEST_PATH_IMAGE048
时刻的第
Figure DEST_PATH_IMAGE049
个点云,
Figure 99027DEST_PATH_IMAGE050
表示第
Figure DEST_PATH_IMAGE051
个视频的时间集合。
7.根据权利要求6所述的基于单目相机的三维人像补全方法,其特征在于,所述根据正面RGB图和正面深度图构建带纹理的人体3D模型的具体过程为:
根据相机参数,将正面RGB图和正面深度图生成带颜色的三维点云;
根据三角剖分算法,利用带颜色的三维点云生成带纹理的人体3D模型。
8.一种基于单目相机的三维人像补全系统,其特征在于,采用如权利要求1-7任一项所述的基于单目相机的三维人像补全方法,其包括相机、第一生成模块、第二生成模块和构建模块;
所述相机用于采集人体侧面RGB图,所述第一生成模块用于根据采集到的人体侧面RGB图和侧面RGB图的前后帧生成视频帧融合后的侧面RGB图和侧面深度图;所述第二生成模块用于根据侧面RGB图和侧面深度图生成正面RGB图和正面深度图,其具体过程为:
利用相机参数将视频帧融合后的侧面RGB图和侧面生成的深度图转换为弱透视投影下的侧面RGB图以及弱透视投影下的侧面深度图;
利用RGB矫正网络
Figure 680181DEST_PATH_IMAGE052
将弱透视投影下的侧面RGB图生成正面RGB图;
其中,对于图像
Figure DEST_PATH_IMAGE053
的像素
Figure 386319DEST_PATH_IMAGE054
,RGB矫正网络
Figure 380820DEST_PATH_IMAGE052
的损失函数为:
Figure DEST_PATH_IMAGE055
式中,
Figure 397317DEST_PATH_IMAGE056
表示正面RGB图的颜色真值;
利用深度矫正网络
Figure DEST_PATH_IMAGE057
将弱透视投影下的侧面深度图生成正面深度图;
其中,对于图像
Figure 505082DEST_PATH_IMAGE058
的像素
Figure DEST_PATH_IMAGE059
,深度矫正网络
Figure 542308DEST_PATH_IMAGE057
的损失函数为:
Figure 194744DEST_PATH_IMAGE060
式中,
Figure DEST_PATH_IMAGE061
表示正面深度图的真值;
将正面深度图转换为正面法向图,并利用鉴别器判别该法向图是否为真;
所述构建模块用于根据正面RGB图和正面深度图构建人体3D模型。
9.一种存储介质,其特征在于,其上存储有可执行程序,当可执行程序被调用时,执行如权利要求1-7中任一项所述的基于单目相机的三维人像补全方法中的步骤。
CN202210417444.XA 2022-04-21 2022-04-21 基于单目相机的三维人像补全方法和补全系统 Expired - Fee Related CN114520906B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210417444.XA CN114520906B (zh) 2022-04-21 2022-04-21 基于单目相机的三维人像补全方法和补全系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210417444.XA CN114520906B (zh) 2022-04-21 2022-04-21 基于单目相机的三维人像补全方法和补全系统

Publications (2)

Publication Number Publication Date
CN114520906A CN114520906A (zh) 2022-05-20
CN114520906B true CN114520906B (zh) 2022-07-05

Family

ID=81600303

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210417444.XA Expired - Fee Related CN114520906B (zh) 2022-04-21 2022-04-21 基于单目相机的三维人像补全方法和补全系统

Country Status (1)

Country Link
CN (1) CN114520906B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116193095A (zh) * 2023-01-18 2023-05-30 四川大学 一种基于单色图像实现彩色3d显示的方法
CN117057976B (zh) * 2023-08-04 2024-03-19 南通大学 一种基于局部外观流的虚拟试衣方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113362446A (zh) * 2021-05-25 2021-09-07 上海奥视达智能科技有限公司 基于点云数据重建对象的方法及装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11218688B2 (en) * 2016-01-04 2022-01-04 Occipital, Inc. Apparatus and methods for three-dimensional sensing
CN105786016B (zh) * 2016-03-31 2019-11-05 深圳奥比中光科技有限公司 无人机以及rgbd图像的处理方法
CN109410272B (zh) * 2018-08-13 2021-05-28 国网陕西省电力公司电力科学研究院 一种变压器螺母识别与定位装置及方法
CN112396694B (zh) * 2020-12-08 2023-05-05 北京工商大学 一种基于单目摄像头的3d人脸视频生成方法
CN113487664B (zh) * 2021-07-23 2023-08-04 深圳市人工智能与机器人研究院 三维场景感知方法、装置、电子设备、机器人及介质

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113362446A (zh) * 2021-05-25 2021-09-07 上海奥视达智能科技有限公司 基于点云数据重建对象的方法及装置

Also Published As

Publication number Publication date
CN114520906A (zh) 2022-05-20

Similar Documents

Publication Publication Date Title
US11151690B2 (en) Image super-resolution reconstruction method, mobile terminal, and computer-readable storage medium
CN109671023B (zh) 一种人脸图像超分辨率二次重建方法
CN114520906B (zh) 基于单目相机的三维人像补全方法和补全系统
WO2020001168A1 (zh) 三维重建方法、装置、设备和存储介质
EP3816929B1 (en) Method and apparatus for restoring image
TWI534755B (zh) 三維立體模型之建立方法和裝置
US20190141247A1 (en) Threshold determination in a ransac algorithm
CN113052835B (zh) 一种基于三维点云与图像数据融合的药盒检测方法及其检测系统
CN106981078B (zh) 视线校正方法、装置、智能会议终端及存储介质
CN112884682B (zh) 一种基于匹配与融合的立体图像颜色校正方法及系统
WO2019169884A1 (zh) 基于深度信息的图像显著性检测方法和装置
CN110517304B (zh) 生成深度图的方法、装置、电子设备和存储介质
CN111080776B (zh) 人体动作三维数据采集和复现的处理方法及系统
Li et al. HDRFusion: HDR SLAM using a low-cost auto-exposure RGB-D sensor
CN111047709A (zh) 一种双目视觉裸眼3d图像生成方法
CN115035235A (zh) 三维重建方法及装置
CN113643342A (zh) 一种图像处理方法、装置、电子设备及存储介质
CN114429191B (zh) 基于深度学习的电子防抖方法、系统及存储介质
CN109784215B (zh) 一种基于改进的光流法的活体检测方法及系统
KR20180000696A (ko) 적어도 하나의 라이트필드 카메라를 사용하여 입체 이미지 쌍을 생성하는 방법 및 장치
EP4050553A1 (en) Method and device for restoring image obtained from array camera
US20230245277A1 (en) Image restoration method and device
CN111696143A (zh) 一种事件数据的配准方法与系统
CN116402908A (zh) 一种基于异构式成像的密集光场图像重建方法
CN112711984B (zh) 注视点定位方法、装置和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20220705

CF01 Termination of patent right due to non-payment of annual fee