CN117853664B - 基于双分支特征融合三维人脸重建方法 - Google Patents

基于双分支特征融合三维人脸重建方法 Download PDF

Info

Publication number
CN117853664B
CN117853664B CN202410239146.5A CN202410239146A CN117853664B CN 117853664 B CN117853664 B CN 117853664B CN 202410239146 A CN202410239146 A CN 202410239146A CN 117853664 B CN117853664 B CN 117853664B
Authority
CN
China
Prior art keywords
attention
double
output
feature
branch
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202410239146.5A
Other languages
English (en)
Other versions
CN117853664A (zh
Inventor
潘志轩
刘俊晖
廖赟
段清
吴旭宁
刘沛瑜
邸一得
周豪
朱开军
钱旭
靳方伟
李沄朋
滕荣睿
吕佳依
陈楠
胡宗潇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yunnan Lanyi Network Technology Co ltd
Yunnan University YNU
Original Assignee
Yunnan Lanyi Network Technology Co ltd
Yunnan University YNU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yunnan Lanyi Network Technology Co ltd, Yunnan University YNU filed Critical Yunnan Lanyi Network Technology Co ltd
Priority to CN202410239146.5A priority Critical patent/CN117853664B/zh
Publication of CN117853664A publication Critical patent/CN117853664A/zh
Application granted granted Critical
Publication of CN117853664B publication Critical patent/CN117853664B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Human Computer Interaction (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及图像处理技术领域,且公开了基于双分支特征融合三维人脸重建方法,获取待进行重建的人脸图像,采用双分支网络对人脸图像进行特征提取,并将双分支输出的特征图进行融合,接着将特征图进行解码并输出VW位置图,接着通过损失函数进行回归运算,根据VW位置图渲染人脸模型,并进行评估。该基于双分支特征融合三维人脸重建方法通过双分支网络充分发挥卷积和TRANSFORMER的优点,卷积运算擅长提取局部特征,而TRANSFORMER可以捕获长距离的特征依赖,融合模块将双分支的输出融合优势互补,解决了卷积层的缺点,捕获全局特征表示的局限性,解决了TRANSFORMER的缺点,提高了对无约束环境下人脸重建的准确性。

Description

基于双分支特征融合三维人脸重建方法
技术领域
本发明涉及图像处理技术领域,具体为基于双分支特征融合三维人脸重建方法。
背景技术
单视图图像的 3D 人脸重建在生物识别领域、商业领域发挥着重要作用,目的在于欺骗人脸识别系统以及增强人脸识别系统的反欺骗能力。商业领域可以通过快速获取个性化的人脸模型,加速游戏、动画等内容的创作过程。这有助于提高内容的个性化程度,满足用户多样化的需求。3D 人脸模型的快速获取对于虚拟现实和增强现实应用具有重要意义。它可以改善虚拟体验的真实感,为用户提供更加沉浸式的体验。3D 人脸重建技术也可以在艺术创作中发挥作用,为艺术家提供创作工具,同时也有助于数字化保存和传承文化遗产。
传统的基于CNN的方法直接输出VW图,该方法强调人脸重建速度,这可能导致网络学习尺度信息和深度信息不足,影响了输出的人脸模型的精度
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了基于双分支特征融合三维人脸重建方法,具备无约束环境下人脸重建的准确性等优点,解决了上述技术问题。
(二)技术方案
为实现上述目的,本发明提供如下技术方案:一种基于双分支特征融合三维人脸重建方法,包括以下步骤:
S1、获取待进行重建的人脸图像,包括输入任意尺寸大小的图片,获取图片中人脸位置中心,以人脸位置中心裁剪出人脸图像;
S2、采用双分支网络对人脸图像进行特征提取,双分支网络包括ResNet分支和TRANSFORMER分支;
S3、对步骤S2中双分支输出的特征图进行进行自注意力交互后进行交叉注意力交互;
S4、将步骤S3中的特征图进行解码并输出VW位置图,接着通过损失函数进行回归运算;
S5、根据步骤S4中的VW位置图渲染人脸模型,并进行评估。
作为本发明的优选技术方案,所述步骤S1中的获取的人脸图像的具体过程如下:
S1.1、输入任意尺寸大小的图片;
S1.2、获取图片中人脸位置中心;
S1.3、以人脸位置中心裁剪出人脸图像。
作为本发明的优选技术方案,所述步骤S2的具体过程如下:
S2.1、建立一个具有ResNet分支和TRANSFORMER分支的双分支网络;
S2.2、接收步骤S1获取的人脸图像,通过ResNet分支对其进行下采样和升维;
S2.3、将升维后的特征图通过多次不同的下采样倍数升维输入到TRANSFORMER分支中;
S2.4、根据步骤S2.3中的采样倍数的次数构建特征金字塔,沿通道方向排列并对特征进行输出。
作为本发明的优选技术方案,所述TRANSFORMER分支通过注意力机制先对特征图进行横向分割,之后对每个子区域分别输入到全连接层内,并通过注意力交互,得到横向 输出,并将输出重新拼接,得到水平方向自注意力交互的输出,具体表达式如下:
其中,表示的是横向的第个子区域,且分别 表示对应的三个注意力权值矩阵,()表示自注意力交互,表示对子区域的输出进行拼接。
作为本发明的优选技术方案,接着所述TRANSFORMER分支通过注意力机制先对特 征图进行纵向分割,之后对每个子区域分别输入到全连接层内,并通过注意力交互,得到 纵向输出,并将输出重新拼接,得到水平方向自注意力交互的输出,具体表达式如下:
其中,表示的是纵向的第个子区域,别表示对应的 三个注意力权值矩阵,()表示自注意力交互,表示 对子区域的输出进行拼接。
作为本发明的优选技术方案,所述步骤S3具体步骤如下:
S3.1、对TRANSFORMER分支输出的特征进行自注意力交互;
S3.2、将ResNet分支的输出特征和步骤S2.4输出特征做交叉注意力;
S3.3、将特征按照步骤S2.4的金字塔特征还原为(512,64,64)(512,32,32) (512,16,16)(512,8,8),并将还原的特征图进行拼接,并进行降维。
作为本发明的优选技术方案,所述步骤S4中的损失函数表达式如下:
其中,表示是指输出的VW图中,点的XYZ三个通道的值,真 实的VW图点的XYZ三个通道的值,表示256*256*1的权重图,表示点 的权重。
作为本发明的优选技术方案,所述步骤S4中的VW图记录了三维人脸各点的坐标。
作为本发明的优选技术方案,所述步骤S5中VW像素点与其对应在三维空间上的点对应的表达式如下:
其中,是三维空间中点的三维坐标,表示VW图,表示点对应 的二维VW坐标。
作为本发明的优选技术方案,所述步骤S5中的评估函数表达式如下:
其中,表示的是的差值平方和,表示预测结果中的对应点, 表示实况点,表示样本大小为的数据集中第个样本的预测结果的归一化平均欧几 里得距离。
与现有技术相比,本发明提供了基于双分支特征融合三维人脸重建方法,具备以下有益效果:
本发明通过双分支网络充分发挥卷积和TRANSFORMER的优点,卷积运算擅长提取局部特征,而TRANSFORMER可以捕获长距离的特征依赖,融合模块将双分支的输出融合优势互补,解决了卷积层的缺点,捕获全局特征表示的局限性,解决了TRANSFORMER的缺点,提高了对无约束环境下人脸重建的准确性。
附图说明
图1为本发明流程示意图;
图2为本发明总架构示意图;
图3为本发明双分支网络的模型示意图;
图4为本发明融合模块的模型示意图;
图5为本发明解码器的模型示意图;
图6为本发明不同方法的总距离误差对比示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1-6,一种基于双分支特征融合三维人脸重建方法,包括以下步骤:
S1、获取待进行重建的人脸图像,输入任意尺寸照片,使用如RetinaFace等人脸识别模型获取人脸位置,以人脸为中心裁剪出256*256的人脸图像;
S2、采用双分支网络对人脸图像进行特征提取,建立一个具有ResNet分支和TRANSFORMER分支的双分支网络,双分支网络包含ResNet0、ResNet1、ResNet2、ResNet3、ResNet4、CNN0、TRANSFORMER0、TRANSFORMER1、TRANSFORMER2、TRANSFORMER3、1*1CNN0、1*1CNN1、1*1CNN2,融合模块包含交叉注意力0、自注意力0、CNN0,解码器部分包含17个反卷积层,接着双分支网络接收大小为(3,256,256)的数据,通过设计的第一个分支ResNet网络结构的第0层到第4层逐步进行下采样和升维,输出大小为(512,8,8)的特征,特征图沿通道方向排列得到(512,64)特征;(3,256,256)的原人脸图像通过CNN0下采样四倍以及升维输出(64,64,64)特征图,CNN全称卷积神经网络,是由一些可学习的滤波器集合构成的,滤波器可以学习到某种视觉特征并在匹配到该特征时激活,由于滤波器的高宽较小以及其权重共享的特点,使得卷积神经网络能够高效提取局部特征;
随后特征图输入TRANSFORMER0提取全局特征输出(64,64,64)特征图,(64,64,64) 特征图输入1*1CNN0进行升维得到(512,64,64)特征图作为特征金字塔的第一层, Transformer是一种基于注意力机制的序列模型。自注意力机制是Transformer的核心部 分,它允许模型在处理序列时,将输入序列中的每个元素与其他元素进行比较,以便在不同 上下文中正确地处理每个元素。同时(64,64,64)特征图输入CNN1下采样两倍及升维输出 (128,32,32)特征图;(128,32,32)特征图输入TRANSFORMER1提取全局特征输出(128,32, 32)特征图,(128,32,32)特征图输入1*1CNN1进行升维得到(512,32,32)特征图作为特征金 字塔的第二层,同时(128,32,32)特征图输入CNN2下采样两倍及升维输出(256,16,16)特征 图;(256,16,16)特征图输入TRANSFORMER2提取全局特征输出(256,16,16)特征图,(256, 16,16)特征图输入1*1CNN2进行升维得到(512,16,16)特征图作为特征金字塔的第三层,同 时(256,16,16)特征图输入CNN3下采样两倍及升维输出(512,8,8)特征图;(512,8,8)特征 图输入TRANSFORMER3提取全局特征输出(512,8,8)特征图作为特征金字塔的第四层。最后 将(512,64,64)(512,32,32)(512,16,16)(512,8,8)的特征金字塔沿通道方向排列,输出大 小为(512,8440)的特征,对于TRANSFORMER块,使用了CSwin Transformer里的注意力机制。 对特征图以特定距离横向切割成个区域,随后每个子区域分 别输入全连接层得到的三个注意力权值矩阵。进行自注 意力交互得到,即完成一次自注意力交互后的输出,将所有的输出以原来的形状拼 接,得到,代表完成水平方向上的自注意力交互的输出。类似地,在竖直方向上对特征 图以特定距离竖向切割成个区域,随后每个子区域进行自 注意力交互输出,将所有的输出以原来的形状拼接,得到,代表完成竖直方向上 的自注意力交互的输出。最后将两张特征图concat得到特征图,代表完成一次 两个方向上的自注意力交互的输出,具体表达式如下:
对于1*1CNN,为卷积核大小为1*1,步距为1的卷积层;
S3、对步骤S2中双分支输出的特征图进行融合,构建融合模块,建立一个双特征融 合模块,包含交叉注意力0、自注意力0、CNN0,自注意力0将TRANSFORMER分支输出的特征金 字塔进行特征交互,TRANSFORMER分支输出的(512,8440)特征做自注意力交互,使各层特征 之间学习到各层的尺度信息,输出大小为(512,8440)特征;由于token数量大,为降低计算 量,该自注意力采用Dattn机制,具体的,输入特征,分别输入全连接层得到Query ,即注意力机制的q、Value ,即注意力机制的v,分别输入全连接层得到 第k个采样点的注意力得分、第k个采样点相对Query位置的偏移量。根据注意力 得分选取K个采样点进行注意力交互,具体表达式如下
将ResNet分支的(512,64)输出特征与(512,8440)特征做交叉注意力,具体 为做Query,做Value,使ResNet分支输出的特征也学习到多尺度信息,输出(512,64) 特征,再改变形状还原为(512,8,8)
将(512,8440)特征按照原来的金字塔形状还原为(512,64,64)(512,32,32)(512,16,16)(512,8,8);将两个(512,8,8)特征图concat,得到(1024,8,8)特征图,经过CNN0降维得到大小为(512,8,8)的特征;
S4、将步骤S3中的特征图进行解码并输出VW位置图,接着通过损失函数进行回归 运算,损失函数表达式如下:
其中,表示是指输出的VW图中,点的XYZ三个通道的值,真 实的VW图点的XYZ三个通道的值,表示256*256*1的权重图,表示点 的权重,不同的子区域被分配了不同的权重,例如脸部中心区域比其他区域具有更多可辨 别的特征。具体而言,在损失函数内,子区域1、子区域2、子区域3和子区域4分别被赋予16、 4、3和0的权重。值得注意的是,68个面部标志被赋予了最高的权重,保证了网络对其精确位 置的精确学习,VW图记录了三维人脸各点的坐标;
S5、根据步骤S4中的VW位置图渲染人脸模型,并进行评估,遍历VW图的像素点,进行三维人脸重建,VW图每个像素点在三个通道上都分别有一个值,代表了三维空间上的x坐标,y坐标,z坐标,VW像素点与其对应在三维空间上的点的关系如下:
其中,是三维空间中点的三维坐标,表示VW图,表示点对应 的二维VW坐标;
设计评估指标进行客观评估,对于每张测试图像,输入到所发明的双分支特征融 合网络,预测一张VW位置图;选择使用归一化的平均误差,这是可见地标误差的平均值,以 边界框的大小为归一化系数。表示样本大小为M的数据集中第i个样本的预测结果中 的对应点与地面实况点之间的归一化平均欧几里得距离。的差值 平方和,具体为的点与对应的点之间X、Y、Z的差值平方和。NME中的归一化系数l定义为, 其中h和w分别表示面部边界框的高度和宽度。
评估对象为45000个点的
与PRNet、3DDFA、SADRNet的三维人脸重建方法进行对比实验,从而验证本发明设计的方法的三维人脸重建效果。PRNet是发明于2018年的经典人脸重建网络,特点是直接通过神经网络,建立从2D图片到3D模版的映射关系,效率很高。3DDFA是发明于2019年的经典人脸重建网络,通过提取四元数使得模型面对大姿态人脸也能高精度重建。SADENet是发明于2022年的人脸重建网络,预测一个依赖姿势的人脸和一个独立于姿势的人脸通过感知遮挡的自对齐进行组合,以生成最终的3D面,具有出色的效果。
ALFW2000-3D是通过从AFLW数据集中选择前2000张图像构建的。每个样本都包含ground truth的3D人脸和相应的68个地标。本申请将AFLW2000-3D数据集作为测试集,采用归一化平均误差(NME)作为评价指标来评估网络在人脸重建任务上的质量。
根据偏航角将测试集分为3个子集:[0°,30°], [30°, 60°], 和[60°, 90°],然后测试小、中、大姿势的人脸的NME,如图6所示,使用客观评价指标,对本发明方法与PRNet、3DDFA、SADRNet的三维人脸重建方法进行对比,本发明方法在偏航角分为[0°,30°], [30°,60°], 和[60°, 90°],地标误差均为最小,表明本发明所设计的方法的三维人脸重建的准确度高,效果较为理想。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (6)

1.一种基于双分支特征融合三维人脸重建方法,其特征在于:包括以下步骤:
S1、获取待进行重建的人脸图像,包括输入任意尺寸大小的图片,获取图片中人脸位置中心,以人脸位置中心裁剪出人脸图像;
S2、采用双分支网络对人脸图像进行特征提取,双分支网络包括ResNet分支和TRANSFORMER分支;
S3、对步骤S2中双分支输出的特征图进行进行自注意力交互后进行交叉注意力交互;
S4、将步骤S3中的特征图进行解码并输出VW位置图,接着通过损失函数进行回归运算;
S5、根据步骤S4中的VW位置图渲染人脸模型,并进行评估;
所述步骤S2的具体过程如下:
S2.1、建立一个具有ResNet分支和TRANSFORMER分支的双分支网络;
S2.2、接收步骤S1获取的人脸图像,通过ResNet分支对其进行下采样和升维;
S2.3、将升维后的特征图通过多次不同的下采样倍数升维输入到TRANSFORMER分支中;
S2.4、根据步骤S2.3中的采样倍数的次数构建特征金字塔,沿通道方向排列并对特征进行输出;
所述TRANSFORMER分支通过注意力机制先对特征图X进行横向分割,之后对每个子区域分别输入到全连接层内,并通过注意力交互,得到横向输出,并将输出重新拼接,得到水平方向自注意力交互的输出Y1,具体表达式如下:
X=[X1,X2,…,XM]
Y1 i=ATTention(XiWQ,XiWK,XiWV)
Y1=[Y1 1,Y1 2,…,Y1 M]
其中,Xi表示的是横向的第i个子区域,且i={1,2,…,M},M表示对特征图分割的区域个数,WQ、WK和WV分别表示对应Q、K、V的三个注意力权值矩阵,ATTention()表示自注意力交互,[Y1 1,Y1 2,…,Y1 M]表示对子区域Xi的输出Y1 i进行拼接;
接着所述TRANSFORMER分支通过注意力机制先对特征图X进行纵向分割,之后对每个子区域分别输入到全连接层内,并通过注意力交互,得到纵向输出,并将输出重新拼接,得到水平方向自注意力交互的输出Y2,具体表达式如下:
X=[X’1,X’2,…,X’M]
Y2i=ATTention(X’iW’Q,X’iW’K,X’iW’V)
Y2=[Y21,Y22,…,Y2M}
其中,X’i表示的是纵向的第i个子区域,W’Q、W’K、W’V别表示对应Q、K、V的三个注意力权值矩阵,ATTention()表示自注意力交互,[Y21,Y22,…,Y2M]表示对子区域Xi的输出Y2 i进行拼接。
2.根据权利要求1所述的基于双分支特征融合三维人脸重建方法,其特征在于:所述步骤S3具体步骤如下:
S3.1、对TRANSFORMER分支输出的特征进行自注意力交互;
S3.2、将ResNet分支的输出特征X1和步骤S2.4输出特征X2做交叉注意力;
S3.3、将特征X2按照步骤S2.4的金字塔特征还原为(512,64,64)(512,32,32)(512,16,16)(512,8,8),并将还原的特征图进行拼接,并进行降维。
3.根据权利要求1所述的基于双分支特征融合三维人脸重建方法,其特征在于:所述步骤S4中的损失函数Loss表达式如下:
其中,M(x,y)表示是指输出的VW图中,点(x,y)的XYZ三个通道的值,真实的VW图点(x,y)的XYZ三个通道的值,N表示256*256*1的权重图,N(x,y)表示点(x,y)的权重。
4.根据权利要求1所述的基于双分支特征融合三维人脸重建方法,其特征在于:所述步骤S4中的VW图记录了三维人脸各点的坐标。
5.根据权利要求1所述的基于双分支特征融合三维人脸重建方法,其特征在于:所述步骤S5中VW像素点与其对应在三维空间上的点对应的表达式如下:
V(vi,wi)=(xi,yi,zi)
其中,(xi,yi,zi)是三维空间中i点的三维坐标,V表示VW图,(vi,wi)表示点对应的二维VW坐标。
6.根据权利要求5所述的基于双分支特征融合三维人脸重建方法,其特征在于:所述步骤S5中的评估函数表达式如下:
其中,表示的是ei和/>的差值平方和,ei表示预测结果中的对应点,/>表示实况点,NME表示样本大小为M的数据集中第i个样本的预测结果的归一化平均欧几里得距离。
CN202410239146.5A 2024-03-04 2024-03-04 基于双分支特征融合三维人脸重建方法 Active CN117853664B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410239146.5A CN117853664B (zh) 2024-03-04 2024-03-04 基于双分支特征融合三维人脸重建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410239146.5A CN117853664B (zh) 2024-03-04 2024-03-04 基于双分支特征融合三维人脸重建方法

Publications (2)

Publication Number Publication Date
CN117853664A CN117853664A (zh) 2024-04-09
CN117853664B true CN117853664B (zh) 2024-05-14

Family

ID=90530529

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410239146.5A Active CN117853664B (zh) 2024-03-04 2024-03-04 基于双分支特征融合三维人脸重建方法

Country Status (1)

Country Link
CN (1) CN117853664B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114140495A (zh) * 2021-11-12 2022-03-04 杭州电子科技大学 基于多尺度Transformer的单目标跟踪方法
CN114528928A (zh) * 2022-02-11 2022-05-24 杭州慧看智能科技有限公司 一种基于Transformer的二训练图像分类算法
CN114581920A (zh) * 2022-03-08 2022-06-03 盐城工学院 一种双分支多层次特征解码的分子图像识别方法
CN114943995A (zh) * 2022-05-12 2022-08-26 北京百度网讯科技有限公司 人脸识别模型的训练方法、人脸识别方法及装置
CN116843834A (zh) * 2023-07-03 2023-10-03 中国科学院自动化研究所 一种三维人脸重建及六自由度位姿估计方法、装置及设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114140495A (zh) * 2021-11-12 2022-03-04 杭州电子科技大学 基于多尺度Transformer的单目标跟踪方法
CN114528928A (zh) * 2022-02-11 2022-05-24 杭州慧看智能科技有限公司 一种基于Transformer的二训练图像分类算法
CN114581920A (zh) * 2022-03-08 2022-06-03 盐城工学院 一种双分支多层次特征解码的分子图像识别方法
CN114943995A (zh) * 2022-05-12 2022-08-26 北京百度网讯科技有限公司 人脸识别模型的训练方法、人脸识别方法及装置
CN116843834A (zh) * 2023-07-03 2023-10-03 中国科学院自动化研究所 一种三维人脸重建及六自由度位姿估计方法、装置及设备

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
ACN:Occulusion-tolerant face alignment by attentional combination of heterogeneous regression networks;Hyunsung Park 等;《Pattern Recognition》;20210630;第114卷;1-13 *
Transformer与CNN融合的单目图像深度估计;张涛等;《哈尔滨理工大学学报》;20221229;第27卷(第6期);88-94 *
基于残差网络的FMCW雷达人体行为识别;罗金燕等;《计算机科学》;20231115;第50卷(第52期);174-179 *
基于注意力及视觉Transformer的野外人脸表情识别;罗岩等;《计算机工程与应用》;20220302;第58卷(第10期);200-207 *

Also Published As

Publication number Publication date
CN117853664A (zh) 2024-04-09

Similar Documents

Publication Publication Date Title
CN111047548B (zh) 姿态变换数据处理方法、装置、计算机设备和存储介质
Chen et al. The face image super-resolution algorithm based on combined representation learning
CN112381879B (zh) 基于图像和三维模型的物体姿态估计方法、系统及介质
CN110443842A (zh) 基于视角融合的深度图预测方法
CN110738697A (zh) 基于深度学习的单目深度估计方法
CN111369681A (zh) 三维模型的重构方法、装置、设备及存储介质
CN111127538B (zh) 一种基于卷积循环编码-解码结构的多视影像三维重建方法
Chen et al. Cross parallax attention network for stereo image super-resolution
CN113159232A (zh) 一种三维目标分类、分割方法
Jiang et al. Estimation of construction site elevations using drone-based orthoimagery and deep learning
Zhang et al. Personal photograph enhancement using internet photo collections
CN112163990B (zh) 360度图像的显著性预测方法及系统
CN112562001B (zh) 一种物体6d位姿估计方法、装置、设备及介质
Song et al. Deep novel view synthesis from colored 3d point clouds
CN114187310A (zh) 基于八叉树和PointNet++网络的大规模点云分割方法
CN113344110B (zh) 一种基于超分辨率重建的模糊图像分类方法
CN114897136A (zh) 多尺度注意力机制方法及模块和图像处理方法及装置
CN114638866A (zh) 一种基于局部特征学习的点云配准方法及系统
CN118365879A (zh) 一种基于场景感知类关注的异构遥感图像分割方法
Li et al. Multi-view convolutional vision transformer for 3D object recognition
CN117853664B (zh) 基于双分支特征融合三维人脸重建方法
Choi et al. Tmo: Textured mesh acquisition of objects with a mobile device by using differentiable rendering
CN116168162A (zh) 一种多视角加权聚合的三维点云重建方法
CN115496859A (zh) 基于散乱点云交叉注意学习的三维场景运动趋势估计方法
Luo et al. Frontal face reconstruction based on detail identification, variable scale self-attention and flexible skip connection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant