CN112001268B - 人脸校准方法及设备 - Google Patents
人脸校准方法及设备 Download PDFInfo
- Publication number
- CN112001268B CN112001268B CN202010759579.5A CN202010759579A CN112001268B CN 112001268 B CN112001268 B CN 112001268B CN 202010759579 A CN202010759579 A CN 202010759579A CN 112001268 B CN112001268 B CN 112001268B
- Authority
- CN
- China
- Prior art keywords
- graph
- face
- convolution
- middle layer
- vertices
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 230000002776 aggregation Effects 0.000 claims abstract description 26
- 238000004220 aggregation Methods 0.000 claims abstract description 26
- 230000006870 function Effects 0.000 claims abstract description 14
- 238000005096 rolling process Methods 0.000 claims description 22
- 230000015654 memory Effects 0.000 claims description 18
- 238000010586 diagram Methods 0.000 claims description 13
- 239000013598 vector Substances 0.000 claims description 13
- 239000011159 matrix material Substances 0.000 claims description 12
- 238000010606 normalization Methods 0.000 claims description 7
- 238000007781 pre-processing Methods 0.000 claims description 7
- 238000005070 sampling Methods 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 6
- 230000002829 reductive effect Effects 0.000 claims description 5
- 230000009466 transformation Effects 0.000 claims description 5
- 230000003595 spectral effect Effects 0.000 claims description 3
- 238000009825 accumulation Methods 0.000 claims description 2
- 230000004927 fusion Effects 0.000 abstract description 7
- 238000001228 spectrum Methods 0.000 abstract description 3
- 238000013527 convolutional neural network Methods 0.000 description 9
- 230000001815 facial effect Effects 0.000 description 8
- 206010010071 Coma Diseases 0.000 description 4
- 206010073261 Ovarian theca cell tumour Diseases 0.000 description 4
- 238000004590 computer program Methods 0.000 description 4
- 230000005291 magnetic effect Effects 0.000 description 4
- 208000001644 thecoma Diseases 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000008921 facial expression Effects 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 210000004556 brain Anatomy 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000000670 limiting effect Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 1
- 238000002679 ablation Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000003936 working memory Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- Biomedical Technology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Image Processing (AREA)
Abstract
本发明的目的是提供一种人脸校准方法及设备,本发明的聚合体系结构与分层和迭代融合功能密切相关。本发明提出了一种新颖的聚合回归网络,该网络可以更好地提取跨渠道和分辨率的语义和空间信息的全谱。本发明的网络由一个编码器和一个解码器组成,它们通过一系列嵌套的残差卷积块相连。本发明门设计了解码器中每个降采样操作之后剩余的顶点数,以及编码器中每个卷积块之后的特征图大小,以使它们彼此相等。因此,本发明通过不同的特征级别实现了从2D图像特征到3D网格特征的体积回归。
Description
技术领域
本发明涉及计算机领域,尤其涉及一种人脸校准方法及设备。
背景技术
在多年的研究中,人脸对齐和3D人脸重建是计算机视觉和图形学中两个开放的相关问题。面部对齐通常用作大多数面部图像任务(例如面部识别和面部表情或姿势分析)的重要先决步骤,目的是定位某些2D面部关键点。
但是,诸如遮挡,大姿势和极端照明之类的问题使得很难检测到脸部界标。研究人员开始探索过去几十年来2D界标与3D形状之间的强相关性,从而通过3D人脸重建来协助人脸对齐。自3D变形模型(3DMM)于1999年问世以来,提出了基于该模型从2D面部图像恢复3D面部网格的方法,该方法可提供3D面部重建和密集的面部对齐结果。3DMM是从高质量人脸扫描中学到的人脸几何形状和纹理的仿射参数模型。它是基于PCA的实现,可以通过线性基础的组合来生成新的形状实例。
在过去的两年中,人们开始使用卷积神经网络(CNN)从图像中回归3DMM的参数。其他研究人员通过训练CNN来学习变换参数,该参数在变换后的2D图像和输入图像之间以可区分的渲染层和自监督策略进行协作。诸如之类的方法将3D人脸坐标与2D表示(投影坐标码(PNCC),量化共形)进行回归映射,或者用保形贴图UV位置图来表示3D人脸信息。尽管这些方法可以通过2D表示回归3D几何信息,但是它们仍然将噪声引入到原始样本中,因此这些方法取决于2D表示的能力。图卷积网络(GCN)可以处理非网格状数据,例如3D面网格,并且可以直接在网格上进行卷积而无需2D表示,这可以减少信息损失。CoMA提出了一种网格自动编码器,以学习3D面部表面上的非线性表示并通过GCN重建3D面部网格。
CoMA提出了一种自动编码器结构网络,该网络将图像编码为潜在的嵌入向量,然后通过GCN解码为3D人脸网格。但是,在编码的下采样过程中,人脸图像的某些内容信息将丢失,并且只通过潜在的嵌入向量并不能充分体现高级语义信息和2D人脸的低层特征。
发明内容
本发明的一个目的是提供一种人脸校准方法及设备。
根据本发明的一个方面,提供了一种人脸校准方法,该方法包括:
获取2D人脸照片;
对所述2D人脸照片进行正常卷积操作,得到中间层的特征图;
对所述中间层的特征图进行图卷积操作,得到3D人脸的顶点坐标。
进一步的,上述方法中,对所述2D人脸照片进行正常卷积操作,得到中间层的特征图,包括:
采用编码器对所述2D人脸照片进行正常卷积操作,得到中间层的特征图,所述编码器的结构包括6个聚合块和两个完全连接层,其中,
每个聚合块包含一系列残差卷积块,其中,每个残差卷机块有3个具有残差连接的卷积层,将Batch Normalization层和Leaky Relu作为激活函数,每个残差卷机层的滤波器的内核大小为3且跨度为1,输入的2D人脸照片经过每个聚合块之后,特征图的大小将减小一半;然后应用两个完全连接层来构造256×1尺寸的嵌入向量。
进一步的,上述方法中,对所述中间层的特征图进行图卷积操作,得到3D人脸的顶点坐标,包括:
采用解码器对所述中间层的特征图进行图卷积操作,得到3D人脸的顶点坐标,其中,所述解码器从图卷积聚合块中进行嵌入和多级输出,然后使用6个密集图卷积块进行解码,每个密集图卷积块由4个图卷积层组成,每个图卷积层之后是批处理规范化层和LeakyRelu作为激活函数,在每个密集图卷积块之后,将顶点的数量从16升采样到16384,并且每个顶点由矢量表示,最后,添加两个图卷积层以生成3D面网格,从而对3D面网格进行升采样顶点到53215,并将顶点特征图通道减少到3。
进一步的,上述方法中,对所述中间层的特征图进行图卷积操作,得到3D人脸的顶点坐标,包括:
对所述中间层的特征图进行预处理,得到预处理后的数据;
对所述预处理后的数据进行图卷积操作,得到图卷积操作结果;
对所述图卷积操作结果实现图聚合块,得到3D人脸的顶点坐标。
进一步的,上述方法中,对所述中间层的特征图进行预处理,得到预处理后的数据,包括:
用顶点和边表示3D人脸面部网格,F=(V,A),其中,V表示3D人脸顶点的集合,V=3D欧氏空间中的N个顶点,V∈RN×3,顶点之间的边连接由稀疏邻接矩阵A∈{0,1}N×N表示,其中,Ai,j=1表示顶点i和顶点j由边连接,否则Ai,j=0。
进一步的,上述方法中,对所述预处理后的数据进行图卷积操作,得到图卷积操作结果,包括:
通过使用递归切比雪夫多项式进行卷积运算,用内核滤波器gθ表示网格滤波在傅立叶空间中的定义,内核滤波器gθ参数化为K阶的切比雪夫多项式展开:
其中,L^代表新拉普拉斯算子,参数θk是切比雪夫系数的一个向量,Tk是K阶的切比雪夫多项式,所述K阶的切比雪夫多项式可以递归地计算为TK(x)=2xTk-1(x)Tk-2(x),T0=1,T1=x,因此,频谱卷积定义为:
其中,输入x∈RN×Fin具有Fin个特征,且Fin=3,由于顶点的面网格是3D且y∈RN ×Fout,Fout是输出。
进一步的,上述方法中,对所述图卷积操作结果实现图聚合块,得到3D人脸的顶点坐标,包括:
用置换矩阵Qd∈{0,1}m×n向下采样,使得最终得到具有m个顶点的网格,n为初始顶点个数,其中,Qd(i,j)=1表示保留第j个顶点,否则,Qd(i,j)=0;
使用另一个变换矩阵Qu∈Rm×n进行上采样。
根据本发明的另一方面,还提供一种人脸校准设备,该设备包括:
第一装置,用于获取2D人脸照片;
第二装置,用于对所述2D人脸照片进行正常卷积操作,得到中间层的特征图;
第三装置,用于对所述中间层的特征图进行图卷积操作,得到3D人脸的顶点坐标。
根据本发明的另一方面,还提供一种基于计算的设备,其中,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:
获取2D人脸照片;
对所述2D人脸照片进行正常卷积操作,得到中间层的特征图;
对所述中间层的特征图进行图卷积操作,得到3D人脸的顶点坐标。
根据本发明的另一面方面,还提供一种计算机可读存储介质,其上存储有计算机可执行指令,其中,该计算机可执行指令被处理器执行时使得该处理器:
获取2D人脸照片;
对所述2D人脸照片进行正常卷积操作,得到中间层的特征图;
对所述中间层的特征图进行图卷积操作,得到3D人脸的顶点坐标。
根据本发明的另一方面,还提供了一种人脸校准设备,该设备包括:
与现有技术相比,本发明的聚合体系结构与分层和迭代融合功能密切相关。本发明提出了一种新颖的聚合回归网络(AR-GCN),该网络可以更好地提取跨渠道和分辨率的语义和空间信息的全谱。本发明的网络由一个编码器和一个解码器组成,它们通过一系列嵌套的残差卷积块(聚合块)相连。本发明门设计了解码器中每个降采样操作之后剩余的顶点数,以及编码器中每个卷积块之后的特征图大小,以使它们彼此相等。因此,本发明通过不同的特征级别实现了从2D图像特征到3D网格特征的体积回归。
本发明第一次使用CNN和GCN组合,直接学习从2D像素到3D面网格顶点的多级回归映射,通过不同的特征级别从2D图像特征直接回归到对应的3D面部几何形状。
本发明适用于完全不受约束的面部图像,包括任意姿势,面部表情和遮挡。
本发明与最近提出的自动编码器结构网络不同,自动编码器结构网络仅使用低级潜在嵌入向量。
本发明提出了一种新颖的轻量级高效聚合网络,它通过图卷积网络(AR-GCN)进行聚合回归,解决了密集脸部对齐和3D脸部重构以及来自相应的室外2D脸部图像的问题。为了进行训练,本发明提出了一种新的损失函数,该函数专门用于小范围误差中的人脸关键点定位。此外,针对几个具有挑战性的数据集提出了全面的实验,我们的定量和定性结果表明比其他最新方法具有更高的性能。
本发明和自动编码器结构网络不同的是,本文所发明网络结构实现了扩展高级语义信息和多级别特征信息的融合,增强了网络的性能。
本发明可应用到其他3D模型的重建任务中,例如三维人体重建,三维人脑重建等。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1(a)示出CoMA的网络结构示意图;
图1(b)示出本发明一实施例的网络结构示意图;
图2(a)示出的CoMA实现了传统的单路径编码器-解码器网络的示意图;
图2(b)示出U-net结构的示意图;
图2(c)示出AR-GCN的示意图;
图3示出本发明一实施例的解码器的结构示意图。
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
下面结合附图对本发明作进一步详细描述。
在本申请一个典型的配置中,终端、服务网络的设备和可信方均包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
本发明提供一种人脸校准方法,所述方法包括:
步骤S1,获取2D人脸照片;
在此,所述2D人脸照片可以是尺寸大小为256×256×3的2维人脸图像;
步骤S2,对所述2D人脸照片进行正常卷积操作,得到中间层的特征图;
步骤S3,对所述中间层的特征图进行图卷积操作,得到3D人脸的顶点坐标。
本发明的人脸校准方法一实施例中,步骤S2,对所述2D人脸照片进行正常卷积操作,得到中间层的特征图,包括:
采用编码器对所述2D人脸照片进行正常卷积操作,得到中间层的特征图,所述编码器的结构包括6个聚合块和两个完全连接层,其中,
每个聚合块包含一系列残差卷积块,其中,每个残差卷机块有3个具有残差连接的卷积层,将Batch Normalization(批归一化)层和Leaky Relu作为激活函数,每个残差卷机层的滤波器的内核大小为3且跨度为1,输入的2D人脸照片经过每个聚合块之后,特征图的大小将减小一半;然后应用两个完全连接层来构造256×1尺寸的嵌入向量。
例如,6个聚合块可将尺寸大小为256×256×3的2维人脸输入图像的尺寸减小到尺寸为4×4×128的特征图。
本实施例与与CoMA提出的在图像到图像任务中使用的网络不同,本实施例的聚合块实现了将本地和全局信息从编码器完全融合到解码器中。提取2D图像特征时,聚合中的上采样操作会从浅到深进一步细化。此外,本实施例添加了下采样操作,可以将高分辨率特征从2D图像投影到低分辨率的3D网格特征中。最后,聚合迭代地和分层地实现这些操作,以学习低级和高级特征信息的深度融合。
本发明的人脸校准方法一实施例中,步骤S3,对所述中间层的特征图进行图卷积操作,得到3D人脸的顶点坐标,包括:
采用解码器对所述中间层的特征图进行图卷积操作,得到3D人脸的顶点坐标,其中,所述解码器从图卷积聚合块中进行嵌入和多级输出,然后使用6个密集图卷积块(DenseGCN)进行解码,这已经被证实,随着卷积层的深入,DenseGCN可以防止消失的梯度问题。其中,本发明的每个密集图卷积块(DenseGCN,Dense Graph Convolution Network,密集图卷积神经网络)由4个图卷积层组成,每个图卷积层之后是批处理规范化层和LeakyRelu作为激活函数,在每个密集图卷积块(DenseGCN)之后,将顶点的数量从16升采样到16384,并且每个顶点由矢量表示,例如16384×128。最后,添加两个图卷积层以生成3D面网格,从而对3D面网格进行升采样顶点到53215,并将顶点特征图通道减少到3,因为每个面网格顶点具有三个维度:x,y,z。在图3中网络结构的右分支上,显示了使用面网格对顶点进行向上采样的过程。
具体的,CoMA实现了传统的单路径编码器-解码器网络,以解决图卷积网络的密集人脸对齐问题,如图2(a)所示。图2(b)显示了U-net(U型神经网)结构,本实施例使用图形上采样操作将右分支更改为GCN,可以将其视为浅聚集网络。通过消融研究,发现在密集的面部对齐中,在图2(c)中提出的AR-GCN(Aggregate Regression-Graph ConvolutionNetwork,本发明提出的聚集回归图神经网络)可以比非聚集图2(a)或浅聚集网络图2(b)表现更好。有关拟议架构的更多详细信息如图3所示。
本发明的人脸校准方法一实施例中,步骤S3,对所述中间层的特征图进行图卷积操作,得到3D人脸的顶点坐标,包括:
步骤S31,对所述中间层的特征图进行预处理,得到预处理后对数据;
步骤S32,对所述预处理后对数据进行图卷积操作,得到图卷积操作结果;
步骤S33,对所述图卷积操作结果实现图聚合块,得到3D人脸的顶点坐标。
在此,图卷积操作采用解码器的结构来实现,图卷积的输入为尺寸是4x4x128的正常卷积的输出(中间层的特征图),输出为3D人脸的顶点坐标。
预处理数据后,为了实现图卷积聚合块,我们需要从两方面入手,首先是实现图卷积,其次是实现图聚合块。
本发明的人脸校准方法一实施例中,步骤S31,对所述中间层的特征图进行预处理,得到预处理后的数据,包括:
用顶点和边表示3D人脸面部网格,F=(V,A),其中,V表示3D人脸顶点的集合,V=3D欧氏空间中的N个顶点,V∈RN×3,顶点之间的边连接由稀疏邻接矩阵A∈{0,1}N×N表示,其中,Ai,j=1表示顶点i和顶点j由边连接,否则Ai,j=0。
本实施例中,为了实现图卷机操作,首先需要预处理数据,将3D人脸用其他的方式表示。
其中,F:3D人脸集合(包括3D人脸的顶点和边);
V:3D人脸顶点的集合;
A:连接3D人脸顶点的边的集合表示;
N:3D人脸顶点的个数;
i:第i个3D人脸顶点;
j:第j个3D人脸顶点。
本发明的人脸校准方法一实施例中,步骤S32,对所述预处理后的数据进行图卷积操作,得到图卷积操作结果,包括:
通过使用递归切比雪夫(Chebyshev)多项式进行卷积运算,用内核滤波器gθ表示网格滤波在傅立叶空间中的定义,内核滤波器gθ参数化为K阶的切比雪夫(Chebyshev)多项式展开:
其中,L^代表新拉普拉斯算子,参数θk是切比雪夫系数的一个向量,Tk是K阶的切比雪夫多项式,所述K阶的切比雪夫多项式可以递归地计算为TK(x)=2xTk-1(x)Tk-2(x),T0=1,T1=x,因此,频谱卷积定义为:
其中,输入x∈RN×Fin具有Fin个特征,且Fin=3,由于顶点的面网格是3D且y∈RN ×Fout,Fout是输出。
本实施例对方法是可计算的相比之下,速度更快,复杂度从O(n2)降到O(n)。
本发明的人脸校准方法一实施例中,步骤S33,对所述图卷积操作结果实现图聚合块,得到3D人脸的顶点坐标,包括:
用置换矩阵Qd∈{0,1}m×n向下采样,使得最终得到具有m个顶点的网格,n为初始顶点个数,其中,Qd(i,j)=1表示保留第j个顶点,否则,Qd(i,j)=0;
使用另一个变换矩阵Qu∈Rm×n进行上采样。
在此,为了在图卷积的联合网格和2D特征图上实现多尺度聚合卷积,我们遵循CoMA,以获得新的拓扑以及网格和顶点的邻居关系。具体来说,本实施例使用置换矩阵Qd∈{0,1}m×n向下采样,使得最终得到具有m个顶点的网格,其中,Qd(i,j)=1表示保留第j个顶点,否则,Qd(i,j)=0。使用另一个变换矩阵Qu∈Rm×n进行上采样,为了分层和迭代地协作CNN(Convolution Neural Network,卷积神经网络)和GCN(Graph convolution network,图卷积神经网络),本实施例专门设计了每个下采样阶段剩余的顶点数量。
下采样是通过迭代收缩顶点对而获得的,顶点对使用二次矩阵来维持表面误差近似值。使用重心坐标记录下采样期间丢弃的顶点。因此,上采样可以对保留的顶点进行卷积变换,并使用重心坐标将丢弃的顶点映射到下采样的网格表面。通过稀疏矩阵乘法Vu=QuVd可以有效地获得具有顶点Vu的上采样网格。其中,Vd是向下采样的顶点。
综上所述,本发明的聚合体系结构与分层和迭代融合功能密切相关。本发明提出了一种新颖的聚合回归网络(AR-GCN),该网络可以更好地提取跨渠道和分辨率的语义和空间信息的全谱。本发明的网络由一个编码器和一个解码器组成,它们通过一系列嵌套的残差卷积块(聚合块)相连。本发明门设计了解码器中每个降采样操作之后剩余的顶点数,以及编码器中每个卷积块之后的特征图大小,以使它们彼此相等。因此,本发明通过不同的特征级别实现了从2D图像特征到3D网格特征的体积回归。
本发明第一次使用CNN和GCN组合,直接学习从2D像素到3D面网格顶点的多级回归映射,通过不同的特征级别从2D图像特征直接回归到对应的3D面部几何形状。
本发明适用于完全不受约束的面部图像,包括任意姿势,面部表情和遮挡。
可以证明,可以同时扩展高级语义信息和多级别特征来估计3D面部几何信息。本发明与最近提出的自动编码器结构网络不同,自动编码器结构网络仅使用低级潜在嵌入向量。
本发明提出了一种新颖的轻量级高效聚合网络,它通过图卷积网络(AR-GCN)进行聚合回归,解决了密集脸部对齐和3D脸部重构以及来自相应的室外2D脸部图像的问题。为了进行训练,本发明提出了一种新的损失函数,该函数专门用于小范围误差中的人脸关键点定位。此外,针对几个具有挑战性的数据集提出了全面的实验,我们的定量和定性结果表明比其他最新方法具有更高的性能。
图1(a)展示了CoMA(Convolutional Mesh Autoencoders for Generating3DFaces,卷积网格自动编码器)的网络结构,其中使用的的是自动编码器(包括编码器和解码器),图1(b)为本发明的网络结构,本发明和自动编码器结构网络不同的是,本文所发明网络结构实现了扩展高级语义信息和多级别特征信息的融合,增强了网络的性能。
本发明可应用到其他3D模型的重建任务中,例如三维人体重建,三维人脑重建等。
根据本发明的另一方面,还提供一种人脸校准设备,该设备包括:
第一装置,用于获取2D人脸照片;
第二装置,用于对所述2D人脸照片进行正常卷积操作,得到中间层的特征图;
第三装置,用于对所述中间层的特征图进行图卷积操作,得到3D人脸的顶点坐标。
根据本发明的另一方面,还提供一种基于计算的设备,其中,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:
获取2D人脸照片;
对所述2D人脸照片进行正常卷积操作,得到中间层的特征图;
对所述中间层的特征图进行图卷积操作,得到3D人脸的顶点坐标。
根据本发明的另一面方面,还提供一种计算机可读存储介质,其上存储有计算机可执行指令,其中,该计算机可执行指令被处理器执行时使得该处理器:
获取2D人脸照片;
对所述2D人脸照片进行正常卷积操作,得到中间层的特征图;
对所述中间层的特征图进行图卷积操作,得到3D人脸的顶点坐标。
本发明的各设备和存储介质实施例的详细内容,具体可参见各方法实施例的对应部分,在此,不再赘述。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
需要注意的是,本发明可在软件和/或软件与硬件的组合体中被实施,例如,可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中,本发明的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地,本发明的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中,例如,RAM存储器,磁或光驱动器或软磁盘及类似设备。另外,本发明的一些步骤或功能可采用硬件来实现,例如,作为与处理器配合从而执行各个步骤或功能的电路。
另外,本发明的一部分可被应用为计算机程序产品,例如计算机程序指令,当其被计算机执行时,通过该计算机的操作,可以调用或提供根据本发明的方法和/或技术方案。而调用本发明的方法的程序指令,可能被存储在固定的或可移动的记录介质中,和/或通过广播或其他信号承载媒体中的数据流而被传输,和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此,根据本发明的一个实施例包括一个装置,该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发该装置运行基于前述根据本发明的多个实施例的方法和/或技术方案。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
Claims (8)
1.一种人脸校准方法,其中,该方法包括:
获取2D人脸照片;
对所述2D人脸照片进行正常卷积操作,得到中间层的特征图;
对所述中间层的特征图进行图卷积操作,得到3D人脸的顶点坐标;
对所述2D人脸照片进行正常卷积操作,得到中间层的特征图,包括:
采用编码器对所述2D人脸照片进行正常卷积操作,得到中间层的特征图,所述编码器的结构包括6个聚合块和两个完全连接层,其中,
每个聚合块包含一系列残差卷积块,其中,每个残差卷机块有3个具有残差连接的卷积层,将Batch Normalization层和Leaky Relu作为激活函数,每个残差卷机层的滤波器的内核大小为3且跨度为1,输入的2D人脸照片经过每个聚合块之后,特征图的大小将减小一半;然后应用两个完全连接层来构造256×1尺寸的嵌入向量;
对所述中间层的特征图进行图卷积操作,得到3D人脸的顶点坐标,包括:
采用解码器对所述中间层的特征图进行图卷积操作,得到3D人脸的顶点坐标,其中,所述解码器从图卷积聚合块中进行嵌入和多级输出,然后使用6个密集图卷积块进行解码,每个密集图卷积块由4个图卷积层组成,每个图卷积层之后是批处理规范化层和Leaky Relu作为激活函数,在每个密集图卷积块之后,将顶点的数量从16升采样到16384,并且每个顶点由矢量表示,最后,添加两个图卷积层以生成3D面网格,从而对3D面网格进行升采样顶点到53215,并将顶点特征图通道减少到3。
2.根据权利要求1所述的方法,其中,对所述中间层的特征图进行图卷积操作,得到3D人脸的顶点坐标,包括:
对所述中间层的特征图进行预处理,得到预处理后的数据;
对所述预处理后的数据进行图卷积操作,得到图卷积操作结果;
对所述图卷积操作结果实现图聚合块,得到3D人脸的顶点坐标。
3.根据权利要求2所述的方法,其中,对所述中间层的特征图进行预处理,得到预处理后的数据,包括:
用顶点和边表示3D人脸面部网格,F=(V,A),其中,V表示3D人脸顶点的集合,V=3D欧氏空间中的N个顶点,V∈RN×3,顶点之间的边连接由稀疏邻接矩阵A∈{0,1}N×N表示,其中,Ai,j=1表示顶点i和顶点j由边连接,否则Ai,j=0。
4.根据权利要求3所述的方法,其中,对所述预处理后的数据进行图卷积操作,得到图卷积操作结果,包括:
通过使用递归切比雪夫多项式进行卷积运算,用内核滤波器gθ表示网格滤波在傅立叶空间中的定义,内核滤波器gθ参数化为K阶的切比雪夫多项式展开:
其中,L^代表新拉普拉斯算子,参数θk是切比雪夫系数的一个向量,Tk是K阶的切比雪夫多项式,所述K阶的切比雪夫多项式可以递归地计算为TK(x)=2xTk-1(x)Tk-2(x),T0=1,T1=x,因此,频谱卷积定义为:
其中,输入x∈RN×Fin具有Fin个特征,且Fin=3,由于顶点的面网格是3D且y∈RN×Fout,Fout是输出。
5.根据权利要求4所述的方法,其中,对所述图卷积操作结果实现图聚合块,得到3D人脸的顶点坐标,包括:
用置换矩阵Qd∈{0,1}m×n向下采样,使得最终得到具有m个顶点的网格,n为初始顶点个数,其中,Qd(i,j)=1表示保留第j个顶点,否则,Qd(i,j)=0;
使用另一个变换矩阵Qu∈Rm×n进行上采样。
6.一种人脸校准设备,其中,执行如权利要求1至5任一项所述的方法。
7.一种基于计算的设备,其中,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:
执行如权利要求1至5任一项所述的方法。
8.一种计算机可读存储介质,其上存储有计算机可执行指令,其中,该计算机可执行指令被处理器执行时使得该处理器执行如权利要求1至5任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010759579.5A CN112001268B (zh) | 2020-07-31 | 2020-07-31 | 人脸校准方法及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010759579.5A CN112001268B (zh) | 2020-07-31 | 2020-07-31 | 人脸校准方法及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112001268A CN112001268A (zh) | 2020-11-27 |
CN112001268B true CN112001268B (zh) | 2024-01-12 |
Family
ID=73462653
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010759579.5A Active CN112001268B (zh) | 2020-07-31 | 2020-07-31 | 人脸校准方法及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112001268B (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000331167A (ja) * | 1999-05-25 | 2000-11-30 | Medeikku Engineering:Kk | 顔画像照合方法及び装置 |
CN107748858A (zh) * | 2017-06-15 | 2018-03-02 | 华南理工大学 | 一种基于级联卷积神经网络的多姿态眼睛定位方法 |
CN108022308A (zh) * | 2017-11-30 | 2018-05-11 | 深圳市唯特视科技有限公司 | 一种基于三维人脸模型拟合的面部对齐方法 |
CN108304788A (zh) * | 2018-01-18 | 2018-07-20 | 陕西炬云信息科技有限公司 | 基于深度神经网络的人脸识别方法 |
CN108319932A (zh) * | 2018-03-12 | 2018-07-24 | 中山大学 | 一种基于生成式对抗网络的多图像人脸对齐的方法及装置 |
CN110263603A (zh) * | 2018-05-14 | 2019-09-20 | 桂林远望智能通信科技有限公司 | 基于中心损失和残差视觉仿真网络的人脸识别方法及装置 |
CN110288697A (zh) * | 2019-06-24 | 2019-09-27 | 天津大学 | 基于多尺度图卷积神经网络的3d人脸表示与重建方法 |
CN110490158A (zh) * | 2019-08-23 | 2019-11-22 | 安徽大学 | 一种基于多级模型的鲁棒人脸对齐方法 |
CN110991281A (zh) * | 2019-11-21 | 2020-04-10 | 电子科技大学 | 一种动态人脸识别方法 |
CN111369681A (zh) * | 2020-03-02 | 2020-07-03 | 腾讯科技(深圳)有限公司 | 三维模型的重构方法、装置、设备及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200020173A1 (en) * | 2018-07-16 | 2020-01-16 | Zohirul Sharif | Methods and systems for constructing an animated 3d facial model from a 2d facial image |
-
2020
- 2020-07-31 CN CN202010759579.5A patent/CN112001268B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000331167A (ja) * | 1999-05-25 | 2000-11-30 | Medeikku Engineering:Kk | 顔画像照合方法及び装置 |
CN107748858A (zh) * | 2017-06-15 | 2018-03-02 | 华南理工大学 | 一种基于级联卷积神经网络的多姿态眼睛定位方法 |
CN108022308A (zh) * | 2017-11-30 | 2018-05-11 | 深圳市唯特视科技有限公司 | 一种基于三维人脸模型拟合的面部对齐方法 |
CN108304788A (zh) * | 2018-01-18 | 2018-07-20 | 陕西炬云信息科技有限公司 | 基于深度神经网络的人脸识别方法 |
CN108319932A (zh) * | 2018-03-12 | 2018-07-24 | 中山大学 | 一种基于生成式对抗网络的多图像人脸对齐的方法及装置 |
CN110263603A (zh) * | 2018-05-14 | 2019-09-20 | 桂林远望智能通信科技有限公司 | 基于中心损失和残差视觉仿真网络的人脸识别方法及装置 |
CN110288697A (zh) * | 2019-06-24 | 2019-09-27 | 天津大学 | 基于多尺度图卷积神经网络的3d人脸表示与重建方法 |
CN110490158A (zh) * | 2019-08-23 | 2019-11-22 | 安徽大学 | 一种基于多级模型的鲁棒人脸对齐方法 |
CN110991281A (zh) * | 2019-11-21 | 2020-04-10 | 电子科技大学 | 一种动态人脸识别方法 |
CN111369681A (zh) * | 2020-03-02 | 2020-07-03 | 腾讯科技(深圳)有限公司 | 三维模型的重构方法、装置、设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
Anurag_Ranjan.《computer Vision- ECCV 2018》.2018,第725-741页. * |
Also Published As
Publication number | Publication date |
---|---|
CN112001268A (zh) | 2020-11-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zeng et al. | Aggregated contextual transformations for high-resolution image inpainting | |
Kwon et al. | Data-driven depth map refinement via multi-scale sparse representation | |
Yang et al. | Image super-resolution via sparse representation | |
US11636570B2 (en) | Generating digital images utilizing high-resolution sparse attention and semantic layout manipulation neural networks | |
CN110473151B (zh) | 基于分区卷积和关联损失的双阶段图像补全方法及系统 | |
US20220392025A1 (en) | Restoring degraded digital images through a deep learning framework | |
Din et al. | Effective removal of user-selected foreground object from facial images using a novel GAN-based network | |
CN114445904A (zh) | 基于全卷积神经网络的虹膜分割方法和装置、介质和设备 | |
Shi et al. | Exploiting multi-scale parallel self-attention and local variation via dual-branch transformer-CNN structure for face super-resolution | |
Uddin et al. | A perceptually inspired new blind image denoising method using $ L_ {1} $ and perceptual loss | |
Chen et al. | Deep light field super-resolution using frequency domain analysis and semantic prior | |
Xian et al. | Fast generation of high-fidelity RGB-D images by deep learning with adaptive convolution | |
Peng et al. | 3D hand mesh reconstruction from a monocular RGB image | |
Pérez-Pellitero et al. | Antipodally invariant metrics for fast regression-based super-resolution | |
Quan et al. | Deep learning-based image and video inpainting: A survey | |
Xu et al. | Depth map super-resolution via joint local gradient and nonlocal structural regularizations | |
CN103390266A (zh) | 一种图像超分辨率方法和装置 | |
CN116188272B (zh) | 适用于多模糊核的两阶段深度网络图像超分辨率重建方法 | |
CN112001268B (zh) | 人脸校准方法及设备 | |
US20230206515A1 (en) | Automatic caricature generating method and apparatus | |
Sun et al. | Two-stage deep single-image super-resolution with multiple blur kernels for Internet of Things | |
CN115937429A (zh) | 一种基于单张图像的细粒度3d人脸重建方法 | |
CN113807354B (zh) | 图像语义分割方法、装置、设备和存储介质 | |
CN113947524A (zh) | 基于全卷积图神经网络的全景图片显著性预测方法及设备 | |
Kim et al. | UFC-Net with Fully-Connected Layers and Hadamard Identity Skip Connection for Image Inpainting. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |