CN112396694A - 一种基于单目摄像头的3d人脸视频生成方法 - Google Patents

一种基于单目摄像头的3d人脸视频生成方法 Download PDF

Info

Publication number
CN112396694A
CN112396694A CN202011419753.8A CN202011419753A CN112396694A CN 112396694 A CN112396694 A CN 112396694A CN 202011419753 A CN202011419753 A CN 202011419753A CN 112396694 A CN112396694 A CN 112396694A
Authority
CN
China
Prior art keywords
face
image
viewpoint
depth
standard
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011419753.8A
Other languages
English (en)
Other versions
CN112396694B (zh
Inventor
陈红倩
常雨乐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dragon Totem Technology Hefei Co ltd
Guangdong Intelligent Yunchuang Technology Co.,Ltd.
Original Assignee
Beijing Technology and Business University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Technology and Business University filed Critical Beijing Technology and Business University
Priority to CN202011419753.8A priority Critical patent/CN112396694B/zh
Publication of CN112396694A publication Critical patent/CN112396694A/zh
Application granted granted Critical
Publication of CN112396694B publication Critical patent/CN112396694B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20112Image segmentation details
    • G06T2207/20132Image cropping

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Processing Or Creating Images (AREA)

Abstract

为了降低三维人脸模型获取和重建过程的设备依赖性,本发明提出了一种基于单目摄像头的3D人脸视频生成方法;首先使用“三阶级联卷积网络”对输入视频中所包含的人脸区域进行检测和跟踪,将含有人脸的区域框选并裁剪处理为帧图片序列;然后使用一个自动编码器将帧图片序列分解为反照率、深度、光照和视点四个因子,通过一个光照函数得到重建后的规范视角下的标准图像;再然后使用“神经网格渲染器”根据深度因子获得从输入视点所观察到的深度图,通过欧式空间变换将标准图像坐标变换为实际图像坐标;最后通过一个重投影函数扭曲规范视角下的标准图像并进行双重线性采样,获得3D人脸图像;对3D人脸图像进行连续输出,得到3D人脸视频。

Description

一种基于单目摄像头的3D人脸视频生成方法
技术领域
本发明涉及视频图像处理,特别涉及一种关于深度学习并且基于单目摄像头的3D人脸视频生成方法,属于三维重建技术领域。
背景技术
人脸在人类的交流中起着十分重要的信息表达功能,传递着人类的情感和精神状态。而逼真的三维人脸模型在游戏娱乐、影视广告、在线教育、虚拟社交以及医疗设备等领域有着广泛的应用。对于传统的三维人脸模型获取和重建,其大多依赖于实验室内繁重和昂贵的硬件设备,以及比较苛刻的外界环境。如今随着虚拟现实技术和移动智能端得到了快速的发展,已经逐渐走进了人们的视野当中,越来越多的人希望可以通过低成本的设备在日常生活环境下就可以获取高质量的三维人脸模型,并且可以应用到生活的各个方面。利用手机、摄像机拍摄视频,或者直接利用互联网视频进行三维人脸重建,把获取设备的复杂程度降到了最低,不仅为三维人脸技术的进步和发展提供了很大的便捷性,而且为三维人脸的数字化的应用和消费带来新的契机。
本发明提出了一种基于单目摄像头的3D人脸视频生成方法,首先使用“三阶级联卷积网络”(MTCNN)对输入的视频中所包含的人脸区域进行检测和跟踪,并将含有人脸的部分框选出来;然后将所框选的含有人脸的区域裁剪出来,并处理为帧图片序列,即一系列的二维图像;然后将这些图片输入到一个自动编码器里,将其分解为反照率(albedo)、深度(depth)、光照(light)和视点(viewpoint)四个因子,之后通过一个光照函数得到重建之后的规范视角下的2D人脸图像;然后使用“神经网格渲染器”(Neural Mesh Renderer)对得到2D人脸图像进行渲染,通过一个重投影函数得到重建之后的3D人脸图像;最后对这些3D人脸图像进行连续的输出,得到最终的3D人脸视频。本发明所使用的方法获得的3D人脸模型,克服了获取视频设备的复杂、不同环境的影响,重建的精度和准确度都比较高,提高了重建的质量和鲁棒性。
发明内容
针对3D人脸重建的问题,本发明解决了视频获取设备的复杂、不同环境的影响,提出了一种基于单目摄像头的3D人脸视频生成方法,首先使用“三阶级联卷积网络”(MTCNN)对输入的视频中所包含的人脸区域进行检测和跟踪,并将含有人脸的部分框选出来;然后将所框选的含有人脸的区域裁剪出来,并处理为帧图片序列,即一系列的二维图像;然后将这些图片输入到一个自动编码器里,将其分解为反照率(albedo)、深度(depth)、光照(light)和视点(viewpoint)四个因子,之后通过一个光照函数得到重建之后的规范视角下的2D人脸图像;然后使用“神经网格渲染器”(Neural Mesh Renderer)对得到2D人脸图像进行渲染,通过一个重投影函数得到重建之后的3D人脸图像;最后对这些3D人脸图像进行连续的输出,得到最终的3D人脸视频。
为解决上述问题,本发明提出了一种基于单目摄像头的3D人脸视频生成方法,实现步骤如下:
使用“三阶级联卷积神经网络”对获取的视频中所包含的人脸区域进行检测和跟踪,并将含有人脸的部分框选出来。
进一步地,所述的三阶级联卷积神经网络有三项任务,分别为人脸与非人脸的分类,边界框回归和人脸关键点定位。
关于所述的人脸与非人脸的分类,使用公式(1)来约束这个二分类问题,使得目标值
Figure BSA0000226996950000021
取得最小值:
Figure BSA0000226996950000022
其中pi是由网络产生的,表示该样本是人脸的概率,yi det∈{0,1}表示对应的真实标签。
关于所述的边界框回归,对于每个候选窗口,使用公式(2)来约束候选窗口与其最近的真实标签值之间的偏移,使得最终的偏移量
Figure BSA0000226996950000023
取得最小值:
Figure BSA0000226996950000024
其中
Figure BSA0000226996950000025
是从卷积神经网络中获得的第i个回归目标,
Figure BSA0000226996950000026
是第i个回归目标对应的边界框的信息,每个边界框的信息包括该边界的左上角x,y坐标值、高度以及宽度。
关于所述的人脸关键点定位,用公式(3)来表示:
Figure BSA0000226996950000027
其中
Figure BSA0000226996950000028
是网络预测的人脸关键点的坐标组成的向量,该向量中包括左眼、右眼、鼻子、左嘴角和右嘴角五个关键点的坐标,
Figure BSA0000226996950000029
是对应的人脸关键点的真实坐标。
进一步地,所述的三阶级联卷积神经网络包括P-Net阶段、R-Net阶段和O-Net阶段。
关于所述的P-Net阶段,主要通过一个卷积神经网络获取人脸窗口以及人脸边界框回归向量,并基于人脸边界框向量对候选窗口进行校正。之后采取“非极大值抑制”合并高重叠率的候选窗口。
关于所述的R-Net阶段,是以P-Net阶段输出的候选窗口作为输入,通过一个更强大的卷积神经网络进一步筛选大量错误的候选窗口,否决大量非人脸窗口而优化人脸窗口,再利用人脸边界框回归向量对候选窗口做校正,并执行“非极大值抑制”去掉效果不佳的人脸候选框。
关于所述的O-Net阶段,与R-Net阶段的功能相似,但该阶段使用更多的监督来识别人脸区域,进一步优化结果,最终并输出人脸框的位置。
将视频中框选的含有人脸的部分区域裁剪出来,并处理为帧图像序列,即一系列的二维图像。
基于一个自动编码器,对得到帧图像进行重建,最终得到重建之后的规范视角下的2D人脸图像。
对于输入的每一幅帧图像,将其分解为反照率(albedo)、深度(depth)、光照(light)和视点(viewpoint)四个因子,这四个因子依次命名为a、d、l、w因子。
进一步地,对于对称的图片,使用a、d、l、w四个因子,通过光照函数,在w=0的情况下,利用a、d、l这三个因子生成一个规范视角下的标准图像J,使用公式(4)表示为:
Figure BSA0000226996950000031
其中Λ表示光照函数,a表示反照率,d表示深度,l表示光照,w表示标准图像视点和输入图像视点之间的变换。
对于可能对称的图片,首先对图片的深度和反照率进行水平翻转,其具体的操作用公式(5)表示:
Figure BSA0000226996950000032
其中d表示深度,d′表示水平翻转后的深度,a表示反照率,a′表示水平翻转后的反照率。
对于l、d′、a′三个因子,继续使用光照函数,在w=0的情况下,利用l、d′、a′这三个因子生成一个规范视角下的标准图像J′,使用公式(6)表示为:
Figure BSA0000226996950000041
其中Λ表示光照函数,a′表示水平翻转后的反照率,d′表示水平翻转后的深度,l表示光照,w表示标准图像视点和输入图像视点之间的变化。
利用上述的规范视角下的标准图像,使用“神经网格渲染器”得到重建之后的3D人脸图像。
进一步地,使用“神经网格渲染器”对深度因子d进行扭曲,获得从输入视点所观察到的深度图
Figure BSA0000226996950000044
对于得到的深度图
Figure BSA0000226996950000045
通过欧式空间变换(R,T)将标准图像变换到实际图像;通过扭曲函数可以找到实际图像的观察视点到标准图像的视点的扭曲场,将标准图像像素坐标(u,v)与实际图像像素坐标(u′,v′)关联,扭曲函数ηd,w:(u,v)→(u′,v′)使用公式(7)表示为:
p′∝K(duv*RK-1p+T) (7)
其中p′=(u′,v′,1),(u′,v′)即实际图像像素坐标,K为内参数矩阵,duv为深度图
Figure BSA0000226996950000042
的像素坐标,p=(u,v,1)为图像映射投影的像素点,(R,T)表示视点w的欧式空间变换,R为旋转矩阵,T表示位移矩阵。
通过一个重投影函数,将得到的扭曲应用到规范视角的标准图像,并进行双重线性采样,获得实际的3D图像,重投影函数用公式(8)表示为:
Figure BSA0000226996950000043
其中,∏表示重投影函数,J和J′表示规范视角下的标准图像,d表示深度,d′表示水平翻转之后的深度,w表示标准图像视点和输入图像视点之间的变化。
对得到3D人脸图像连续的输出,得到最终的3D人脸视频。
附图说明
图1是本发明一种基于单目摄像头的3D人脸视频生成方法的系统流程图。
图2是本发明输入的单目视频所框选的人脸区域的截图示意图,输入视频为手机拍摄的人脸视频。
图3是本发明重建的3D人脸图像的正面截图示意图。
图4是本发明重建的3D人脸图像的正面截图示意图。
图5是本发明重建的3D人脸图像的正面截图示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互结合,下面结合附图和具体实施例对本发明做进一步详细说明。
图1是本发明一种基于单目摄像头的3D人脸视频生成方法,其主要内容为首先采用“三阶级联卷积网络”(MTCNN)对输入的视频中所包含的人脸区域进行检测和跟踪,并将含有人脸的部分框选出来;然后将所框选的含有人脸的区域裁剪出来,并处理为帧图片序列,即一系列的二维图像;然后将这些图片输入到一个自动编码器里,将其分解为反照率(albedo)、深度(depth)、光照(light)和视点(viewpoint)四个因子,之后通过一个光照函数得到重建之后的规范视角下的2D人脸图像;然后使用“神经网格渲染器”(Neural MeshRenderer)对得到2D人脸图像进行渲染,通过一个重投影函数得到重建之后的3D人脸图像;最后对这些3D人脸图像进行连续的输出,得到最终的3D人脸视频。
使用“三阶级联卷积神经网络”对获取的视频中所包含的人脸区域进行检测和跟踪,并将含有人脸的部分框选出来;
三阶级联卷积神经网络有三项任务,分别为人脸与非人脸的分类,边界框回归和人脸关键点定位;
关于人脸与非人脸的分类,使用公式(1)来约束这个二分类问题,使得目标值
Figure BSA0000226996950000051
取得最小值:
Figure BSA0000226996950000052
其中pi是由网络产生的,表示该样本是人脸的概率,yi det∈{0,1}表示对应的真实标签。
关于边界框回归,对于每个候选窗口,使用公式(2)来约束候选窗口与其最近的真实标签值之间的偏移,使得最终的偏移量
Figure BSA0000226996950000053
取得最小值:
Figure BSA0000226996950000054
其中
Figure BSA0000226996950000055
是从卷积神经网络中获得的第i个回归目标,
Figure BSA0000226996950000056
是第i个回归目标对应的边界框的信息,每个边界框的信息包括该边界的左上角x,y坐标值、高度以及宽度。
关于人脸关键点定位,用公式(3)来表示:
Figure BSA0000226996950000057
其中
Figure BSA0000226996950000058
是网络预测的人脸关键点的坐标组成的向量,该向量中包括左眼、右眼、鼻子、左嘴角和右嘴角五个关键点的坐标,
Figure BSA0000226996950000061
是对应的人脸关键点的真实坐标。
三阶级联卷积神经网络包括P-Net阶段、R-Net阶段和O-Net阶段。
进一步地,P-Net阶段主要通过一个卷积神经网络获取人脸窗口以及人脸边界框回归向量,并基于人脸边界框向量对候选窗口进行校正。之后采取“非极大值抑制”合并高重叠率的候选窗口。
R-Net阶段是以P-Net阶段输出的候选窗口作为输入,通过一个更强大的卷积神经网络进一步筛选大量错误的候选窗口,否决大量非人脸窗口而优化人脸窗口,再利用人脸边界框回归向量对候选窗口做校正,并执行“非极大值抑制”去掉效果不佳的人脸候选框。
O-Net阶段与R-Net阶段的功能相似,但该阶段使用更多的监督来识别人脸区域,进一步优化结果,最终并输出人脸框的位置。
将视频中框选的含有人脸的部分区域裁剪出来,并处理为帧图像序列,即一系列的二维图像。
对于得到每一副帧图像I定义为Ω-→R3
Ω={0,......W-1}×{0,......H-1} (4)
其中W为图像I的宽度,H为图像I的高度。
基于一个自动编码器,对于图像I,将其分解为反照率(albedo)、深度(depth)、光照(light)和视点(viewpoint)四个因子,这四个因子依次命名为a、d、l、w因子。
其中深度d:Ω-→R+,反照率a:Ω→R3,光照l∈S2,视点变化w∈R6
对于对称的图片,使用步骤3.1中的a、d、l、w四个因子,通过光照函数,在w=0的情况下,利用a、d、l这三个因子生成一个规范视角下的标准图像J,使用公式(5)表示为:
Figure BSA0000226996950000062
其中Λ表示光照函数,a表示反照率,d表示深度,l表示光照,w表示标准图像视点和输入图像视点之间的变换。
对于可能对称的图片,先对图像的深度和反照率进行水平翻转。
水平翻转操作表示:[flip a]c,u,v=ac,W-1-u,v (6)
Figure BSA0000226996950000063
其中d表示深度,d′表示水平翻转后的深度,a表示反照率,a′表示水平翻转后的反照率;对称的约束也通过该操作隐式地实现。
利用a′、d′、l以及w四个因子,通过光照函数,在w=0的情况下,利用d′、a′、l这三个因子生成一个规范视角下的标准图像J′,使用公式(8)表示为:
Figure BSA0000226996950000071
其中Λ表示光照函数,a′表示水平翻转后的反照率,d′表示水平翻转后的深度,l表示光照,w表示标准图像视点和输入图像视点之间的变化。
将实际世界的3D点P(Px,Py,Pz)以摄像机为参考系投影到像素p(u,v,1)。
p∝KP (9)
其中
Figure BSA0000226996950000072
为内参数矩阵,且
Figure BSA0000226996950000073
在标准图像中,将深度值du,v与每个像素(u,v)∈Ω相关联,则
P=duv*K-1p (11)
视点w∈R6,表示欧式空间变换(R,T)∈SE(3),其中R为旋转矩阵,T表示位移矩阵,并且w1,w2,w3和w4,w5,w6分别表示x,y,z轴的旋转角度和位移。
使用“神经网格渲染器”对深度因子d进行扭曲,获得从输入视点所观察到的深度图
Figure BSA0000226996950000074
对于得到的深度图
Figure BSA0000226996950000076
通过欧式空间变换(R,T)将标准图像变换到实际图像;通过扭曲函数可以找到实际图像的观察视点到标准图像的视点的扭曲场,将标准图像像素坐标(u,v)与实际图像像素坐标(u′,v′)关联,扭曲函数ηd,w:(u,v)→(u′,v′)使用公式(12)表示为:
p′∝K(duv*RK-1p+T) (12)
其中p′=(u′,v′,1),(u′,v′)即实际图像像素坐标,K为内参数矩阵,duv为深度图
Figure BSA0000226996950000075
的像素坐标,p=(u,v,1)为图像映射投影的像素点,(R,T)表示视点w的欧式空间变换,R为旋转矩阵,T表示位移矩阵。
通过一个重投影函数,将得到的扭曲应用到规范视角的标准图像,并进行双重线性采样,获得实际的3D图像,重投影函数用公式(13)表示为:
Figure BSA0000226996950000081
其中,∏表示重投影函数,J和J′表示规范视角下的标准图像,d表示深度,d′表示水平翻转之后的深度,w表示标准图像视点和输入图像视点之间的变化。
进一步地,对得到的3D人脸图像进行连续的输出,得到最终的3D人脸视频。
图2是本发明输入的单目视频所框选的人脸区域以及输出的人脸框截图示意图,输入视频为手机拍摄的人脸视频,是在日常环境中用手机拍摄的本人的人脸图像。
图3是本发明重建的3D人脸图像的正面截图示意图。
图4是本发明重建的3D人脸图像的左脸侧面截图示意图。
图5是本发明重建的3D人脸图像的右脸侧面截图示意图。
对于本领域技术人员,本发明不限制于上述实施例的细节,在不背离本发明的精神和范围的情况下,能够以其他具体形式实现本发明。此外,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围,这些改进和变型也应视为本发明的保护范围。因此,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

Claims (1)

1.一种基于单目摄像头的3D人脸视频生成方法,其特征在于:
步骤1:使用“三阶级联卷积神经网络”对获取的视频中所包含的人脸区域进行检测和跟踪,并将含有人脸的部分框选出来;
步骤1所述的“三阶级联卷积神经网络”的特征在于:
(1)所述的三阶级联卷积神经网络有三项任务,分别为人脸与非人脸的分类、边界框回归和人脸关键点定位;
(2)关于(1)中所述的人脸与非人脸的分类,使用公式(1)来约束这个二分类问题,使得目标值
Figure FSA0000226996940000011
取得最小值:
Figure FSA0000226996940000012
其中pi表示该样本是人脸的概率,yi det∈{0,1}表示对应的真实标签;
(3)关于(1)中所述的边界框回归,对于每个候选窗口,使用公式(2)来约束候选窗口与其最近的真实标签值之间的偏移,使得最终的偏移量
Figure FSA0000226996940000013
取得最小值:
Figure FSA0000226996940000014
其中
Figure FSA0000226996940000015
是从卷积神经网络中获得的第i个回归目标,
Figure FSA0000226996940000016
是第i个回归目标对应的边界框的信息,每个边界框的信息包括该边界的左上角x,y坐标值、高度以及宽度;
(4)关于(1)中所述的人脸关键点定位,用公式(3)来表示:
Figure FSA0000226996940000017
其中
Figure FSA0000226996940000018
是网络预测的人脸关键点的坐标组成的向量,该向量中包括左眼、右眼、鼻子、左嘴角和右嘴角五个关键点的坐标,
Figure FSA0000226996940000019
是对应的人脸关键点的真实坐标;
(5)所述的三阶级联卷积神经网络包括P-Net阶段、R-Net阶段和O-Net阶段;
(6)关于(5)中所述的P-Net阶段,主要通过一个卷积神经网络获取人脸窗口以及人脸边界框回归向量,并基于人脸边界框向量对候选窗口进行校正,之后采取“非极大值抑制”合并高重叠率的候选窗口;
(7)关于(5)中所述的R-Net阶段,是以(6)中P-Net阶段输出的候选窗口作为输入,通过一个更强大的卷积神经网络进一步筛选大量错误的候选窗口,否决大量非人脸窗口而进一步优化人脸窗口,再利用人脸边界框回归向量对候选窗口做校正,并执行“非极大值抑制”去掉效果不佳的人脸候选框;
(8)关于(5)中所述的O-Net阶段,与(7)中R-Net阶段的功能相似,但该阶段使用更多的监督来识别人脸区域,进一步优化结果,最终并输出人脸框的位置;
步骤2:将步骤1中框选的含有人脸的部分区域裁剪出来,并处理为帧图像序列,即一系列的二维图像;
步骤3:基于一个自动编码器,对步骤2得到的帧图像序列进行重建,最终得到重建之后的规范视角下的2D人脸标准图像,具体步骤为:
步骤3.1:对于输入的每一幅帧图像,将其分解为反照率(albedo)、深度(depth)、光照(1ight)和视点(viewpoint)四个因子,这四个因子依次命名为a、d、l、w因子;
步骤3.2:对于对称的图片,使用步骤3.1中的a、d、l、w四个因子,通过光照函数,在w=0的情况下,利用a、d、l这三个因子生成一个规范视角下的标准图像J,使用公式(4)表示为:
Figure FSA0000226996940000021
其中Λ表示光照函数,a表示反照率,d表示深度,l表示光照,w表示标准图像视点和输入图像视点之间的变换;
步骤3.4:对于可能对称的图片,首先对图片的深度和反照率进行水平翻转,其具体的操作用公式(5)表示:
Figure FSA0000226996940000022
其中d表示深度,d′表示水平翻转后的深度,a表示反照率,a′表示水平翻转后的反照率;
步骤3.5:对于步骤3.1中的l、步骤3.4中的d′、步骤3.4中的a′三个因子,继续使用光照函数,在w=0的情况下,利用l、d′、a′这三个因子生成一个规范视角下的标准图像J′,使用公式(6)表示为:
Figure FSA0000226996940000023
其中Λ表示光照函数,a′表示水平翻转后的反照率,d′表示水平翻转后的深度,l表示光照,w表示标准图像视点和输入图像视点之间的变化;
步骤4:使用“神经网格渲染器”得到重建之后的3D人脸图像,具体步骤为:
步骤4.1:使用“神经网格渲染器”对步骤3.1中的d因子进行扭曲,获得从输入视点所观察到的深度图
Figure FSA0000226996940000024
步骤4.2:对于步骤4.1得到的深度图
Figure FSA0000226996940000032
通过欧式空间变换(R,T)将标准图像变换到实际图像;通过扭曲函数可以找到实际图像的观察视点到标准图像的视点的扭曲场,将标准图像像素坐标(u,v)与实际图像像素坐标(u′,v′)关联,扭曲函数ηd,w:(u,v)→(u′,v′)使用公式(7)表示为:
p′∝K(duv*RK-1p+T) (7)
其中p′=(u′,v′,1),(u′,v′)即实际图像像素坐标,K为内参数矩阵,duv为深度图
Figure FSA0000226996940000033
的像素坐标,p=(u,v,1)为图像映射投影的像素点,(R,T)表示视点w的欧式空间变换,R为旋转矩阵,T表示位移矩阵;
步骤4.3:通过一个重投影函数,将得到的扭曲应用到规范视角的标准图像,并进行双重线性采样,获得实际的3D图像,重投影函数用公式(8)表示为:
Figure FSA0000226996940000031
其中,∏表示重投影函数,J和J′表示规范视角下的标准图像,分别为步骤3.2中的结果J和步骤3.5中的结果J′,d表示深度,d′表示水平翻转之后的深度,w表示标准图像视点和输入图像视点之间的变化;
步骤5:对步骤4.3得到的3D人脸图像进行连续的输出,得到最终的3D人脸视频。
CN202011419753.8A 2020-12-08 2020-12-08 一种基于单目摄像头的3d人脸视频生成方法 Active CN112396694B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011419753.8A CN112396694B (zh) 2020-12-08 2020-12-08 一种基于单目摄像头的3d人脸视频生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011419753.8A CN112396694B (zh) 2020-12-08 2020-12-08 一种基于单目摄像头的3d人脸视频生成方法

Publications (2)

Publication Number Publication Date
CN112396694A true CN112396694A (zh) 2021-02-23
CN112396694B CN112396694B (zh) 2023-05-05

Family

ID=74605192

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011419753.8A Active CN112396694B (zh) 2020-12-08 2020-12-08 一种基于单目摄像头的3d人脸视频生成方法

Country Status (1)

Country Link
CN (1) CN112396694B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113674373A (zh) * 2021-07-02 2021-11-19 清华大学 基于深度学习的真实感人脸渲染方法与装置
CN114520906A (zh) * 2022-04-21 2022-05-20 北京影创信息科技有限公司 基于单目相机的三维人像补全方法和补全系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008102902A (ja) * 2006-07-18 2008-05-01 Advanced Telecommunication Research Institute International 視線方向の推定装置、視線方向の推定方法およびコンピュータに当該視線方向の推定方法を実行させるためのプログラム
US20190066317A1 (en) * 2017-08-24 2019-02-28 General Electric Company Image and video capture architecture for three-dimensional reconstruction
CN109961006A (zh) * 2019-01-30 2019-07-02 东华大学 一种低像素多目标人脸检测和关键点定位方法以及对齐方法
CN111881841A (zh) * 2020-07-30 2020-11-03 河海大学常州校区 一种基于双目视觉的人脸检测识别方法
CN111950477A (zh) * 2020-08-17 2020-11-17 南京大学 一种基于视频监督的单图像三维人脸重建方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008102902A (ja) * 2006-07-18 2008-05-01 Advanced Telecommunication Research Institute International 視線方向の推定装置、視線方向の推定方法およびコンピュータに当該視線方向の推定方法を実行させるためのプログラム
US20190066317A1 (en) * 2017-08-24 2019-02-28 General Electric Company Image and video capture architecture for three-dimensional reconstruction
CN109961006A (zh) * 2019-01-30 2019-07-02 东华大学 一种低像素多目标人脸检测和关键点定位方法以及对齐方法
CN111881841A (zh) * 2020-07-30 2020-11-03 河海大学常州校区 一种基于双目视觉的人脸检测识别方法
CN111950477A (zh) * 2020-08-17 2020-11-17 南京大学 一种基于视频监督的单图像三维人脸重建方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113674373A (zh) * 2021-07-02 2021-11-19 清华大学 基于深度学习的真实感人脸渲染方法与装置
CN113674373B (zh) * 2021-07-02 2024-04-26 清华大学 基于深度学习的真实感人脸渲染方法
CN114520906A (zh) * 2022-04-21 2022-05-20 北京影创信息科技有限公司 基于单目相机的三维人像补全方法和补全系统

Also Published As

Publication number Publication date
CN112396694B (zh) 2023-05-05

Similar Documents

Publication Publication Date Title
CN110503680B (zh) 一种基于非监督的卷积神经网络单目场景深度估计方法
Patwardhan et al. Video inpainting under constrained camera motion
CN110490896B (zh) 一种视频帧图像处理方法和装置
CN110378838B (zh) 变视角图像生成方法,装置,存储介质及电子设备
CN112887698A (zh) 基于神经辐射场的高质量人脸语音驱动方法
US10621777B2 (en) Synthesis of composite images having virtual backgrounds
US8494254B2 (en) Methods and apparatus for image rectification for stereo display
CN110766024B (zh) 基于深度学习的视觉里程计特征点提取方法及视觉里程计
CN112734890B (zh) 基于三维重建的人脸替换方法及装置
CN112396694B (zh) 一种基于单目摄像头的3d人脸视频生成方法
CN113538659A (zh) 一种图像生成方法、装置、存储介质及设备
US11748913B2 (en) Modeling objects from monocular camera outputs
AU2022231680B2 (en) Techniques for re-aging faces in images and video frames
Wang et al. Faithful face image completion for HMD occlusion removal
Numan et al. Generative RGB-D face completion for head-mounted display removal
CN109785429A (zh) 一种三维重建的方法和装置
Zhou et al. Single-view view synthesis with self-rectified pseudo-stereo
CN116524087A (zh) 融合神经辐射场的音频驱动的说话人视频合成方法及系统
Leung et al. Realistic video avatar
CN113436302B (zh) 一种人脸动画合成方法及系统
Yun et al. Cost-efficient 3D face reconstruction from a single 2D image
Wang et al. Expression-aware neural radiance fields for high-fidelity talking portrait synthesis
Zhang et al. Cartoon face synthesis based on Markov Network
Lu et al. Audio-Driven 3D Facial Animation from In-the-Wild Videos
Han et al. Learning residual color for novel view synthesis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20240115

Address after: Room 301, No. 2 Fanguayuan Road, Houjie Town, Dongguan City, Guangdong Province, 523000

Patentee after: Guangdong Intelligent Yunchuang Technology Co.,Ltd.

Address before: 230000 floor 1, building 2, phase I, e-commerce Park, Jinggang Road, Shushan Economic Development Zone, Hefei City, Anhui Province

Patentee before: Dragon totem Technology (Hefei) Co.,Ltd.

Effective date of registration: 20240115

Address after: 230000 floor 1, building 2, phase I, e-commerce Park, Jinggang Road, Shushan Economic Development Zone, Hefei City, Anhui Province

Patentee after: Dragon totem Technology (Hefei) Co.,Ltd.

Address before: 100048 Beijing Business University, 11 Fucheng Road, Haidian District, Beijing

Patentee before: BEIJING TECHNOLOGY AND BUSINESS University