CN117853664B - 基于双分支特征融合三维人脸重建方法 - Google Patents
基于双分支特征融合三维人脸重建方法 Download PDFInfo
- Publication number
- CN117853664B CN117853664B CN202410239146.5A CN202410239146A CN117853664B CN 117853664 B CN117853664 B CN 117853664B CN 202410239146 A CN202410239146 A CN 202410239146A CN 117853664 B CN117853664 B CN 117853664B
- Authority
- CN
- China
- Prior art keywords
- attention
- double
- output
- feature
- branch
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 230000004927 fusion Effects 0.000 title claims abstract description 24
- 230000003993 interaction Effects 0.000 claims description 25
- 238000010586 diagram Methods 0.000 claims description 19
- 238000011156 evaluation Methods 0.000 claims description 7
- 230000007246 mechanism Effects 0.000 claims description 7
- 238000005070 sampling Methods 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 4
- 238000009877 rendering Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 230000000630 rising effect Effects 0.000 claims description 2
- 230000007547 defect Effects 0.000 abstract description 5
- 238000012545 processing Methods 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000001815 facial effect Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 102100033620 Calponin-1 Human genes 0.000 description 1
- 102100033591 Calponin-2 Human genes 0.000 description 1
- 102100033592 Calponin-3 Human genes 0.000 description 1
- 101000945318 Homo sapiens Calponin-1 Proteins 0.000 description 1
- 101000945403 Homo sapiens Calponin-2 Proteins 0.000 description 1
- 101000945410 Homo sapiens Calponin-3 Proteins 0.000 description 1
- 241000764238 Isis Species 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000036544 posture Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Human Computer Interaction (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及图像处理技术领域,且公开了基于双分支特征融合三维人脸重建方法,获取待进行重建的人脸图像,采用双分支网络对人脸图像进行特征提取,并将双分支输出的特征图进行融合,接着将特征图进行解码并输出VW位置图,接着通过损失函数进行回归运算,根据VW位置图渲染人脸模型,并进行评估。该基于双分支特征融合三维人脸重建方法通过双分支网络充分发挥卷积和TRANSFORMER的优点,卷积运算擅长提取局部特征,而TRANSFORMER可以捕获长距离的特征依赖,融合模块将双分支的输出融合优势互补,解决了卷积层的缺点,捕获全局特征表示的局限性,解决了TRANSFORMER的缺点,提高了对无约束环境下人脸重建的准确性。
Description
技术领域
本发明涉及图像处理技术领域,具体为基于双分支特征融合三维人脸重建方法。
背景技术
单视图图像的 3D 人脸重建在生物识别领域、商业领域发挥着重要作用,目的在于欺骗人脸识别系统以及增强人脸识别系统的反欺骗能力。商业领域可以通过快速获取个性化的人脸模型,加速游戏、动画等内容的创作过程。这有助于提高内容的个性化程度,满足用户多样化的需求。3D 人脸模型的快速获取对于虚拟现实和增强现实应用具有重要意义。它可以改善虚拟体验的真实感,为用户提供更加沉浸式的体验。3D 人脸重建技术也可以在艺术创作中发挥作用,为艺术家提供创作工具,同时也有助于数字化保存和传承文化遗产。
传统的基于CNN的方法直接输出VW图,该方法强调人脸重建速度,这可能导致网络学习尺度信息和深度信息不足,影响了输出的人脸模型的精度
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了基于双分支特征融合三维人脸重建方法,具备无约束环境下人脸重建的准确性等优点,解决了上述技术问题。
(二)技术方案
为实现上述目的,本发明提供如下技术方案:一种基于双分支特征融合三维人脸重建方法,包括以下步骤:
S1、获取待进行重建的人脸图像,包括输入任意尺寸大小的图片,获取图片中人脸位置中心,以人脸位置中心裁剪出人脸图像;
S2、采用双分支网络对人脸图像进行特征提取,双分支网络包括ResNet分支和TRANSFORMER分支;
S3、对步骤S2中双分支输出的特征图进行进行自注意力交互后进行交叉注意力交互;
S4、将步骤S3中的特征图进行解码并输出VW位置图,接着通过损失函数进行回归运算;
S5、根据步骤S4中的VW位置图渲染人脸模型,并进行评估。
作为本发明的优选技术方案,所述步骤S1中的获取的人脸图像的具体过程如下:
S1.1、输入任意尺寸大小的图片;
S1.2、获取图片中人脸位置中心;
S1.3、以人脸位置中心裁剪出人脸图像。
作为本发明的优选技术方案,所述步骤S2的具体过程如下:
S2.1、建立一个具有ResNet分支和TRANSFORMER分支的双分支网络;
S2.2、接收步骤S1获取的人脸图像,通过ResNet分支对其进行下采样和升维;
S2.3、将升维后的特征图通过多次不同的下采样倍数升维输入到TRANSFORMER分支中;
S2.4、根据步骤S2.3中的采样倍数的次数构建特征金字塔,沿通道方向排列并对特征进行输出。
作为本发明的优选技术方案,所述TRANSFORMER分支通过注意力机制先对特征图进行横向分割,之后对每个子区域分别输入到全连接层内,并通过注意力交互,得到横向
输出,并将输出重新拼接,得到水平方向自注意力交互的输出,具体表达式如下:
其中,表示的是横向的第个子区域,且,、和分别
表示对应、、的三个注意力权值矩阵,()表示自注意力交互,表示对子区域的输出进行拼接。
作为本发明的优选技术方案,接着所述TRANSFORMER分支通过注意力机制先对特
征图进行纵向分割,之后对每个子区域分别输入到全连接层内,并通过注意力交互,得到
纵向输出,并将输出重新拼接,得到水平方向自注意力交互的输出,具体表达式如下:
其中,表示的是纵向的第个子区域,、别表示对应、、的
三个注意力权值矩阵,()表示自注意力交互,表示
对子区域的输出进行拼接。
作为本发明的优选技术方案,所述步骤S3具体步骤如下:
S3.1、对TRANSFORMER分支输出的特征进行自注意力交互;
S3.2、将ResNet分支的输出特征和步骤S2.4输出特征做交叉注意力;
S3.3、将特征按照步骤S2.4的金字塔特征还原为(512,64,64)(512,32,32)
(512,16,16)(512,8,8),并将还原的特征图进行拼接,并进行降维。
作为本发明的优选技术方案,所述步骤S4中的损失函数表达式如下:
其中,表示是指输出的VW图中,点的XYZ三个通道的值,真
实的VW图点的XYZ三个通道的值,表示256*256*1的权重图,表示点
的权重。
作为本发明的优选技术方案,所述步骤S4中的VW图记录了三维人脸各点的坐标。
作为本发明的优选技术方案,所述步骤S5中VW像素点与其对应在三维空间上的点对应的表达式如下:
其中,是三维空间中点的三维坐标,表示VW图,表示点对应
的二维VW坐标。
作为本发明的优选技术方案,所述步骤S5中的评估函数表达式如下:
其中,表示的是和的差值平方和,表示预测结果中的对应点,
表示实况点,表示样本大小为的数据集中第个样本的预测结果的归一化平均欧几
里得距离。
与现有技术相比,本发明提供了基于双分支特征融合三维人脸重建方法,具备以下有益效果:
本发明通过双分支网络充分发挥卷积和TRANSFORMER的优点,卷积运算擅长提取局部特征,而TRANSFORMER可以捕获长距离的特征依赖,融合模块将双分支的输出融合优势互补,解决了卷积层的缺点,捕获全局特征表示的局限性,解决了TRANSFORMER的缺点,提高了对无约束环境下人脸重建的准确性。
附图说明
图1为本发明流程示意图;
图2为本发明总架构示意图;
图3为本发明双分支网络的模型示意图;
图4为本发明融合模块的模型示意图;
图5为本发明解码器的模型示意图;
图6为本发明不同方法的总距离误差对比示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1-6,一种基于双分支特征融合三维人脸重建方法,包括以下步骤:
S1、获取待进行重建的人脸图像,输入任意尺寸照片,使用如RetinaFace等人脸识别模型获取人脸位置,以人脸为中心裁剪出256*256的人脸图像;
S2、采用双分支网络对人脸图像进行特征提取,建立一个具有ResNet分支和TRANSFORMER分支的双分支网络,双分支网络包含ResNet0、ResNet1、ResNet2、ResNet3、ResNet4、CNN0、TRANSFORMER0、TRANSFORMER1、TRANSFORMER2、TRANSFORMER3、1*1CNN0、1*1CNN1、1*1CNN2,融合模块包含交叉注意力0、自注意力0、CNN0,解码器部分包含17个反卷积层,接着双分支网络接收大小为(3,256,256)的数据,通过设计的第一个分支ResNet网络结构的第0层到第4层逐步进行下采样和升维,输出大小为(512,8,8)的特征,特征图沿通道方向排列得到(512,64)特征;(3,256,256)的原人脸图像通过CNN0下采样四倍以及升维输出(64,64,64)特征图,CNN全称卷积神经网络,是由一些可学习的滤波器集合构成的,滤波器可以学习到某种视觉特征并在匹配到该特征时激活,由于滤波器的高宽较小以及其权重共享的特点,使得卷积神经网络能够高效提取局部特征;
随后特征图输入TRANSFORMER0提取全局特征输出(64,64,64)特征图,(64,64,64)
特征图输入1*1CNN0进行升维得到(512,64,64)特征图作为特征金字塔的第一层,
Transformer是一种基于注意力机制的序列模型。自注意力机制是Transformer的核心部
分,它允许模型在处理序列时,将输入序列中的每个元素与其他元素进行比较,以便在不同
上下文中正确地处理每个元素。同时(64,64,64)特征图输入CNN1下采样两倍及升维输出
(128,32,32)特征图;(128,32,32)特征图输入TRANSFORMER1提取全局特征输出(128,32,
32)特征图,(128,32,32)特征图输入1*1CNN1进行升维得到(512,32,32)特征图作为特征金
字塔的第二层,同时(128,32,32)特征图输入CNN2下采样两倍及升维输出(256,16,16)特征
图;(256,16,16)特征图输入TRANSFORMER2提取全局特征输出(256,16,16)特征图,(256,
16,16)特征图输入1*1CNN2进行升维得到(512,16,16)特征图作为特征金字塔的第三层,同
时(256,16,16)特征图输入CNN3下采样两倍及升维输出(512,8,8)特征图;(512,8,8)特征
图输入TRANSFORMER3提取全局特征输出(512,8,8)特征图作为特征金字塔的第四层。最后
将(512,64,64)(512,32,32)(512,16,16)(512,8,8)的特征金字塔沿通道方向排列,输出大
小为(512,8440)的特征,对于TRANSFORMER块,使用了CSwin Transformer里的注意力机制。
对特征图以特定距离横向切割成个区域,随后每个子区域分
别输入全连接层、和得到、、的三个注意力权值矩阵。、、进行自注
意力交互得到,即完成一次自注意力交互后的输出,将所有的输出以原来的形状拼
接,得到,代表完成水平方向上的自注意力交互的输出。类似地,在竖直方向上对特征
图以特定距离竖向切割成个区域,随后每个子区域进行自
注意力交互输出,将所有的输出以原来的形状拼接,得到,代表完成竖直方向上
的自注意力交互的输出。最后将两张特征图与concat得到特征图,代表完成一次
两个方向上的自注意力交互的输出,具体表达式如下:
对于1*1CNN,为卷积核大小为1*1,步距为1的卷积层;
S3、对步骤S2中双分支输出的特征图进行融合,构建融合模块,建立一个双特征融
合模块,包含交叉注意力0、自注意力0、CNN0,自注意力0将TRANSFORMER分支输出的特征金
字塔进行特征交互,TRANSFORMER分支输出的(512,8440)特征做自注意力交互,使各层特征
之间学习到各层的尺度信息,输出大小为(512,8440)特征;由于token数量大,为降低计算
量,该自注意力采用Dattn机制,具体的,输入特征,分别输入全连接层、得到Query ,即注意力机制的q、Value ,即注意力机制的v,分别输入全连接层、得到
第k个采样点的注意力得分、第k个采样点相对Query位置的偏移量。根据注意力
得分选取K个采样点进行注意力交互,具体表达式如下
将ResNet分支的(512,64)输出特征与(512,8440)特征做交叉注意力,具体
为做Query,做Value,使ResNet分支输出的特征也学习到多尺度信息,输出(512,64)
特征,再改变形状还原为(512,8,8)
将(512,8440)特征按照原来的金字塔形状还原为(512,64,64)(512,32,32)(512,16,16)(512,8,8);将两个(512,8,8)特征图concat,得到(1024,8,8)特征图,经过CNN0降维得到大小为(512,8,8)的特征;
S4、将步骤S3中的特征图进行解码并输出VW位置图,接着通过损失函数进行回归
运算,损失函数表达式如下:
其中,表示是指输出的VW图中,点的XYZ三个通道的值,真
实的VW图点的XYZ三个通道的值,表示256*256*1的权重图,表示点
的权重,不同的子区域被分配了不同的权重,例如脸部中心区域比其他区域具有更多可辨
别的特征。具体而言,在损失函数内,子区域1、子区域2、子区域3和子区域4分别被赋予16、
4、3和0的权重。值得注意的是,68个面部标志被赋予了最高的权重,保证了网络对其精确位
置的精确学习,VW图记录了三维人脸各点的坐标;
S5、根据步骤S4中的VW位置图渲染人脸模型,并进行评估,遍历VW图的像素点,进行三维人脸重建,VW图每个像素点在三个通道上都分别有一个值,代表了三维空间上的x坐标,y坐标,z坐标,VW像素点与其对应在三维空间上的点的关系如下:
其中,是三维空间中点的三维坐标,表示VW图,表示点对应
的二维VW坐标;
设计评估指标进行客观评估,对于每张测试图像,输入到所发明的双分支特征融
合网络,预测一张VW位置图;选择使用归一化的平均误差,这是可见地标误差的平均值,以
边界框的大小为归一化系数。表示样本大小为M的数据集中第i个样本的预测结果中
的对应点与地面实况点之间的归一化平均欧几里得距离。是和的差值
平方和,具体为的点与对应的点之间X、Y、Z的差值平方和。NME中的归一化系数l定义为,
其中h和w分别表示面部边界框的高度和宽度。
评估对象为45000个点的。
与PRNet、3DDFA、SADRNet的三维人脸重建方法进行对比实验,从而验证本发明设计的方法的三维人脸重建效果。PRNet是发明于2018年的经典人脸重建网络,特点是直接通过神经网络,建立从2D图片到3D模版的映射关系,效率很高。3DDFA是发明于2019年的经典人脸重建网络,通过提取四元数使得模型面对大姿态人脸也能高精度重建。SADENet是发明于2022年的人脸重建网络,预测一个依赖姿势的人脸和一个独立于姿势的人脸通过感知遮挡的自对齐进行组合,以生成最终的3D面,具有出色的效果。
ALFW2000-3D是通过从AFLW数据集中选择前2000张图像构建的。每个样本都包含ground truth的3D人脸和相应的68个地标。本申请将AFLW2000-3D数据集作为测试集,采用归一化平均误差(NME)作为评价指标来评估网络在人脸重建任务上的质量。
根据偏航角将测试集分为3个子集:[0°,30°], [30°, 60°], 和[60°, 90°],然后测试小、中、大姿势的人脸的NME,如图6所示,使用客观评价指标,对本发明方法与PRNet、3DDFA、SADRNet的三维人脸重建方法进行对比,本发明方法在偏航角分为[0°,30°], [30°,60°], 和[60°, 90°],地标误差均为最小,表明本发明所设计的方法的三维人脸重建的准确度高,效果较为理想。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (6)
1.一种基于双分支特征融合三维人脸重建方法,其特征在于:包括以下步骤:
S1、获取待进行重建的人脸图像,包括输入任意尺寸大小的图片,获取图片中人脸位置中心,以人脸位置中心裁剪出人脸图像;
S2、采用双分支网络对人脸图像进行特征提取,双分支网络包括ResNet分支和TRANSFORMER分支;
S3、对步骤S2中双分支输出的特征图进行进行自注意力交互后进行交叉注意力交互;
S4、将步骤S3中的特征图进行解码并输出VW位置图,接着通过损失函数进行回归运算;
S5、根据步骤S4中的VW位置图渲染人脸模型,并进行评估;
所述步骤S2的具体过程如下:
S2.1、建立一个具有ResNet分支和TRANSFORMER分支的双分支网络;
S2.2、接收步骤S1获取的人脸图像,通过ResNet分支对其进行下采样和升维;
S2.3、将升维后的特征图通过多次不同的下采样倍数升维输入到TRANSFORMER分支中;
S2.4、根据步骤S2.3中的采样倍数的次数构建特征金字塔,沿通道方向排列并对特征进行输出;
所述TRANSFORMER分支通过注意力机制先对特征图X进行横向分割,之后对每个子区域分别输入到全连接层内,并通过注意力交互,得到横向输出,并将输出重新拼接,得到水平方向自注意力交互的输出Y1,具体表达式如下:
X=[X1,X2,…,XM]
Y1 i=ATTention(XiWQ,XiWK,XiWV)
Y1=[Y1 1,Y1 2,…,Y1 M]
其中,Xi表示的是横向的第i个子区域,且i={1,2,…,M},M表示对特征图分割的区域个数,WQ、WK和WV分别表示对应Q、K、V的三个注意力权值矩阵,ATTention()表示自注意力交互,[Y1 1,Y1 2,…,Y1 M]表示对子区域Xi的输出Y1 i进行拼接;
接着所述TRANSFORMER分支通过注意力机制先对特征图X进行纵向分割,之后对每个子区域分别输入到全连接层内,并通过注意力交互,得到纵向输出,并将输出重新拼接,得到水平方向自注意力交互的输出Y2,具体表达式如下:
X=[X’1,X’2,…,X’M]
Y2’i=ATTention(X’iW’Q,X’iW’K,X’iW’V)
Y2=[Y2’1,Y2’2,…,Y2’M}
其中,X’i表示的是纵向的第i个子区域,W’Q、W’K、W’V别表示对应Q、K、V的三个注意力权值矩阵,ATTention()表示自注意力交互,[Y2’1,Y2’2,…,Y2’M]表示对子区域Xi的输出Y2 i进行拼接。
2.根据权利要求1所述的基于双分支特征融合三维人脸重建方法,其特征在于:所述步骤S3具体步骤如下:
S3.1、对TRANSFORMER分支输出的特征进行自注意力交互;
S3.2、将ResNet分支的输出特征X1和步骤S2.4输出特征X2做交叉注意力;
S3.3、将特征X2按照步骤S2.4的金字塔特征还原为(512,64,64)(512,32,32)(512,16,16)(512,8,8),并将还原的特征图进行拼接,并进行降维。
3.根据权利要求1所述的基于双分支特征融合三维人脸重建方法,其特征在于:所述步骤S4中的损失函数Loss表达式如下:
其中,M(x,y)表示是指输出的VW图中,点(x,y)的XYZ三个通道的值,真实的VW图点(x,y)的XYZ三个通道的值,N表示256*256*1的权重图,N(x,y)表示点(x,y)的权重。
4.根据权利要求1所述的基于双分支特征融合三维人脸重建方法,其特征在于:所述步骤S4中的VW图记录了三维人脸各点的坐标。
5.根据权利要求1所述的基于双分支特征融合三维人脸重建方法,其特征在于:所述步骤S5中VW像素点与其对应在三维空间上的点对应的表达式如下:
V(vi,wi)=(xi,yi,zi)
其中,(xi,yi,zi)是三维空间中i点的三维坐标,V表示VW图,(vi,wi)表示点对应的二维VW坐标。
6.根据权利要求5所述的基于双分支特征融合三维人脸重建方法,其特征在于:所述步骤S5中的评估函数表达式如下:
其中,表示的是ei和/>的差值平方和,ei表示预测结果中的对应点,/>表示实况点,NME表示样本大小为M的数据集中第i个样本的预测结果的归一化平均欧几里得距离。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410239146.5A CN117853664B (zh) | 2024-03-04 | 2024-03-04 | 基于双分支特征融合三维人脸重建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410239146.5A CN117853664B (zh) | 2024-03-04 | 2024-03-04 | 基于双分支特征融合三维人脸重建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117853664A CN117853664A (zh) | 2024-04-09 |
CN117853664B true CN117853664B (zh) | 2024-05-14 |
Family
ID=90530529
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410239146.5A Active CN117853664B (zh) | 2024-03-04 | 2024-03-04 | 基于双分支特征融合三维人脸重建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117853664B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114140495A (zh) * | 2021-11-12 | 2022-03-04 | 杭州电子科技大学 | 基于多尺度Transformer的单目标跟踪方法 |
CN114528928A (zh) * | 2022-02-11 | 2022-05-24 | 杭州慧看智能科技有限公司 | 一种基于Transformer的二训练图像分类算法 |
CN114581920A (zh) * | 2022-03-08 | 2022-06-03 | 盐城工学院 | 一种双分支多层次特征解码的分子图像识别方法 |
CN114943995A (zh) * | 2022-05-12 | 2022-08-26 | 北京百度网讯科技有限公司 | 人脸识别模型的训练方法、人脸识别方法及装置 |
CN116843834A (zh) * | 2023-07-03 | 2023-10-03 | 中国科学院自动化研究所 | 一种三维人脸重建及六自由度位姿估计方法、装置及设备 |
-
2024
- 2024-03-04 CN CN202410239146.5A patent/CN117853664B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114140495A (zh) * | 2021-11-12 | 2022-03-04 | 杭州电子科技大学 | 基于多尺度Transformer的单目标跟踪方法 |
CN114528928A (zh) * | 2022-02-11 | 2022-05-24 | 杭州慧看智能科技有限公司 | 一种基于Transformer的二训练图像分类算法 |
CN114581920A (zh) * | 2022-03-08 | 2022-06-03 | 盐城工学院 | 一种双分支多层次特征解码的分子图像识别方法 |
CN114943995A (zh) * | 2022-05-12 | 2022-08-26 | 北京百度网讯科技有限公司 | 人脸识别模型的训练方法、人脸识别方法及装置 |
CN116843834A (zh) * | 2023-07-03 | 2023-10-03 | 中国科学院自动化研究所 | 一种三维人脸重建及六自由度位姿估计方法、装置及设备 |
Non-Patent Citations (4)
Title |
---|
ACN:Occulusion-tolerant face alignment by attentional combination of heterogeneous regression networks;Hyunsung Park 等;《Pattern Recognition》;20210630;第114卷;1-13 * |
Transformer与CNN融合的单目图像深度估计;张涛等;《哈尔滨理工大学学报》;20221229;第27卷(第6期);88-94 * |
基于残差网络的FMCW雷达人体行为识别;罗金燕等;《计算机科学》;20231115;第50卷(第52期);174-179 * |
基于注意力及视觉Transformer的野外人脸表情识别;罗岩等;《计算机工程与应用》;20220302;第58卷(第10期);200-207 * |
Also Published As
Publication number | Publication date |
---|---|
CN117853664A (zh) | 2024-04-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111047548B (zh) | 姿态变换数据处理方法、装置、计算机设备和存储介质 | |
Chen et al. | The face image super-resolution algorithm based on combined representation learning | |
CN112381879B (zh) | 基于图像和三维模型的物体姿态估计方法、系统及介质 | |
CN110443842A (zh) | 基于视角融合的深度图预测方法 | |
CN110738697A (zh) | 基于深度学习的单目深度估计方法 | |
CN111369681A (zh) | 三维模型的重构方法、装置、设备及存储介质 | |
CN111127538B (zh) | 一种基于卷积循环编码-解码结构的多视影像三维重建方法 | |
Chen et al. | Cross parallax attention network for stereo image super-resolution | |
CN113159232A (zh) | 一种三维目标分类、分割方法 | |
Jiang et al. | Estimation of construction site elevations using drone-based orthoimagery and deep learning | |
Zhang et al. | Personal photograph enhancement using internet photo collections | |
CN112163990B (zh) | 360度图像的显著性预测方法及系统 | |
CN112562001B (zh) | 一种物体6d位姿估计方法、装置、设备及介质 | |
Song et al. | Deep novel view synthesis from colored 3d point clouds | |
CN114187310A (zh) | 基于八叉树和PointNet++网络的大规模点云分割方法 | |
CN113344110B (zh) | 一种基于超分辨率重建的模糊图像分类方法 | |
CN114897136A (zh) | 多尺度注意力机制方法及模块和图像处理方法及装置 | |
CN114638866A (zh) | 一种基于局部特征学习的点云配准方法及系统 | |
CN118365879A (zh) | 一种基于场景感知类关注的异构遥感图像分割方法 | |
Li et al. | Multi-view convolutional vision transformer for 3D object recognition | |
CN117853664B (zh) | 基于双分支特征融合三维人脸重建方法 | |
Choi et al. | Tmo: Textured mesh acquisition of objects with a mobile device by using differentiable rendering | |
CN116168162A (zh) | 一种多视角加权聚合的三维点云重建方法 | |
CN115496859A (zh) | 基于散乱点云交叉注意学习的三维场景运动趋势估计方法 | |
Luo et al. | Frontal face reconstruction based on detail identification, variable scale self-attention and flexible skip connection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |