CN116129501A - 人脸位姿估计方法及装置 - Google Patents

人脸位姿估计方法及装置 Download PDF

Info

Publication number
CN116129501A
CN116129501A CN202310108179.1A CN202310108179A CN116129501A CN 116129501 A CN116129501 A CN 116129501A CN 202310108179 A CN202310108179 A CN 202310108179A CN 116129501 A CN116129501 A CN 116129501A
Authority
CN
China
Prior art keywords
module
face pose
convolution
network
regression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310108179.1A
Other languages
English (en)
Inventor
杨战波
黄泽元
祁晓婷
蒋召
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Longzhi Digital Technology Service Co Ltd
Original Assignee
Beijing Longzhi Digital Technology Service Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Longzhi Digital Technology Service Co Ltd filed Critical Beijing Longzhi Digital Technology Service Co Ltd
Priority to CN202310108179.1A priority Critical patent/CN116129501A/zh
Publication of CN116129501A publication Critical patent/CN116129501A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本公开涉及人脸识别技术领域,提供了一种人脸位姿估计方法及装置。该方法包括:利用卷积层、批归一化层和第一激活层构建局部分组卷积模块,利用空间注意力模块和Transformer模块构建全局注意力模块,利用残差网络、局部分组卷积模块和全局注意力模块构建主体网络;在主体网络后接三个并行的回归网络,得到人脸位姿估计模型,其中,每个回归网络均由全局平均池化层和全连接层组成,每个回归网络对应一种人脸位姿以及关于该人脸位姿的损失函数;为三个回归网络各自对应的损失函数分配一个自适应权值参数,以得到自适应加权损失函数;依据自适应加权损失函数完成对人脸位姿估计模型的训练,利用训练好的人脸位姿估计模型进行人脸位姿估计。

Description

人脸位姿估计方法及装置
技术领域
本公开涉及人脸识别技术领域,尤其涉及一种人脸位姿估计方法及装置。
背景技术
在人脸位姿估计任务中,由于图像中人脸位置和人脸大小大小的多样性,口罩等因素对人脸区域的遮挡,以及位姿标注本身具有的不确定性,对人脸位姿估计算法的设计带来困难。传统人脸位姿估计模型使用的是通用识别模型,缺乏针对估计人脸位姿的设计,不能充分获取位姿估计需要的局部信息和整体信息,同时,直接对位姿角度进行回归的做法过于直接,难以获得最优效果。上述问题导致传统人脸位姿估计模型精度较低,人脸位姿估计准确率低。
在实现本公开构思的过程中,发明人发现相关技术中至少存在如下技术问题:传统人脸位姿估计模型进行人脸位姿估计存在准确率低的问题。
发明内容
有鉴于此,本公开实施例提供了一种人脸位姿估计方法、装置、电子设备及计算机可读存储介质,以解决现有技术中,传统人脸位姿估计模型进行人脸位姿估计存在准确率低的问题。
本公开实施例的第一方面,提供了一种人脸位姿估计方法,包括:利用卷积层、批归一化层和第一激活层构建局部分组卷积模块,利用空间注意力模块和Transformer模块构建全局注意力模块,利用残差网络、局部分组卷积模块和全局注意力模块构建主体网络;在主体网络后接三个并行的回归网络,得到人脸位姿估计模型,其中,每个回归网络均由全局平均池化层和全连接层组成,每个回归网络对应一种人脸位姿以及关于该人脸位姿的损失函数;为三个回归网络各自对应的损失函数分配一个自适应权值参数,以得到自适应加权损失函数;依据自适应加权损失函数完成对人脸位姿估计模型的训练,利用训练好的人脸位姿估计模型进行人脸位姿估计。
本公开实施例的第二方面,提供了一种人脸位姿估计装置,包括:构建模块,被配置为利用卷积层、批归一化层和第一激活层构建局部分组卷积模块,利用空间注意力模块和Transformer模块构建全局注意力模块,利用残差网络、局部分组卷积模块和全局注意力模块构建主体网络;模型模块,被配置为在主体网络后接三个并行的回归网络,得到人脸位姿估计模型,其中,每个回归网络均由全局平均池化层和全连接层组成,每个回归网络对应一种人脸位姿以及关于该人脸位姿的损失函数;分配模块,被配置为为三个回归网络各自对应的损失函数分配一个自适应权值参数,以得到自适应加权损失函数;训练模块,被配置为依据自适应加权损失函数完成对人脸位姿估计模型的训练,利用训练好的人脸位姿估计模型进行人脸位姿估计。
本公开实施例的第三方面,提供了一种电子设备,包括存储器、处理器以及存储在存储器中并且可在处理器上运行的计算机程序,该处理器执行计算机程序时实现上述方法的步骤。
本公开实施例的第四方面,提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述方法的步骤。
本公开实施例与现有技术相比存在的有益效果是:因为本公开实施例通过利用卷积层、批归一化层和第一激活层构建局部分组卷积模块,利用空间注意力模块和Transformer模块构建全局注意力模块,利用残差网络、局部分组卷积模块和全局注意力模块构建主体网络;在主体网络后接三个并行的回归网络,得到人脸位姿估计模型,其中,每个回归网络均由全局平均池化层和全连接层组成,每个回归网络对应一种人脸位姿以及关于该人脸位姿的损失函数;为三个回归网络各自对应的损失函数分配一个自适应权值参数,以得到自适应加权损失函数;依据自适应加权损失函数完成对人脸位姿估计模型的训练,利用训练好的人脸位姿估计模型进行人脸位姿估计,因此,采用上述技术手段,可以解决现有技术中,传统人脸位姿估计模型进行人脸位姿估计存在准确率低的问题,进而提高人脸位姿估计的准确率。
附图说明
为了更清楚地说明本公开实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本公开实施例的应用场景的场景示意图;
图2是本公开实施例提供的一种人脸位姿估计方法的流程示意图;
图3是本公开实施例提供的一种人脸位姿估计装置的结构示意图;
图4是本公开实施例提供的一种电子设备的结构示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本公开实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本公开。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本公开的描述。
下面将结合附图详细说明根据本公开实施例的一种人脸位姿估计方法和装置。
图1是本公开实施例的应用场景的场景示意图。该应用场景可以包括终端设备101、102和103、服务器104以及网络105。
终端设备101、102和103可以是硬件,也可以是软件。当终端设备101、102和103为硬件时,其可以是具有显示屏且支持与服务器104通信的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等;当终端设备101、102和103为软件时,其可以安装在如上的电子设备中。终端设备101、102和103可以实现为多个软件或软件模块,也可以实现为单个软件或软件模块,本公开实施例对此不作限制。进一步地,终端设备101、102和103上可以安装有各种应用,例如数据处理应用、即时通信工具、社交平台软件、搜索类应用、购物类应用等。
服务器104可以是提供各种服务的服务器,例如,对与其建立通信连接的终端设备发送的请求进行接收的后台服务器,该后台服务器可以对终端设备发送的请求进行接收和分析等处理,并生成处理结果。服务器104可以是一台服务器,也可以是由若干台服务器组成的服务器集群,或者还可以是一个云计算服务中心,本公开实施例对此不作限制。
需要说明的是,服务器104可以是硬件,也可以是软件。当服务器104为硬件时,其可以是为终端设备101、102和103提供各种服务的各种电子设备。当服务器104为软件时,其可以是为终端设备101、102和103提供各种服务的多个软件或软件模块,也可以是为终端设备101、102和103提供各种服务的单个软件或软件模块,本公开实施例对此不作限制。
网络105可以是采用同轴电缆、双绞线和光纤连接的有线网络,也可以是无需布线就能实现各种通信设备互联的无线网络,例如,蓝牙(Bluetooth)、近场通信(Near FieldCommunication,NFC)、红外(Infrared)等,本公开实施例对此不作限制。
用户可以通过终端设备101、102和103经由网络105与服务器104建立通信连接,以接收或发送信息等。需要说明的是,终端设备101、102和103、服务器104以及网络105的具体类型、数量和组合可以根据应用场景的实际需求进行调整,本公开实施例对此不作限制。
图2是本公开实施例提供的一种人脸位姿估计方法的流程示意图。图2的人脸位姿估计方法可以由图1的计算机或服务器,或者计算机或服务器上的软件执行。如图2所示,该人脸位姿估计方法包括:
S201,利用卷积层、批归一化层和第一激活层构建局部分组卷积模块,利用空间注意力模块和Transformer模块构建全局注意力模块,利用残差网络、局部分组卷积模块和全局注意力模块构建主体网络;
S202,在主体网络后接三个并行的回归网络,得到人脸位姿估计模型,其中,每个回归网络均由全局平均池化层和全连接层组成,每个回归网络对应一种人脸位姿以及关于该人脸位姿的损失函数;
S203,为三个回归网络各自对应的损失函数分配一个自适应权值参数,以得到自适应加权损失函数;
S204,依据自适应加权损失函数完成对人脸位姿估计模型的训练,利用训练好的人脸位姿估计模型进行人脸位姿估计。
每个回归网络均由一个全局平均池化层和一个全连接层组成。在对人脸位姿估计模型的训练中,利用每个回归网络对应的损失函数训练该回归网络对应的回归分支,该回归网络对应的回归分支估计该回归网络对应的人脸位姿,主体网络后接该回归网络为该回归网络对应的回归分支。
人脸位姿可以分为偏航角位姿yaw、俯仰角位姿pitch和翻滚角位姿roll三种(此处是人脸位姿估计领域常用的划分,不再赘述),所以主体网络后接三个并行的回归网络。
本公开实施例的主要的创造点在于对人脸位姿估计模型结构的改进以及针对改进后人脸位姿估计模型的结构提出一种相应的自适应加权损失函数。对人脸位姿估计模型的训练和常见的模型训练方法一样。
根据本公开实施例提供的技术方案,利用卷积层、批归一化层和第一激活层构建局部分组卷积模块,利用空间注意力模块和Transformer模块构建全局注意力模块,利用残差网络、局部分组卷积模块和全局注意力模块构建主体网络;在主体网络后接三个并行的回归网络,得到人脸位姿估计模型,其中,每个回归网络均由全局平均池化层和全连接层组成,每个回归网络对应一种人脸位姿以及关于该人脸位姿的损失函数;为三个回归网络各自对应的损失函数分配一个自适应权值参数,以得到自适应加权损失函数;依据自适应加权损失函数完成对人脸位姿估计模型的训练,利用训练好的人脸位姿估计模型进行人脸位姿估计,因此,采用上述技术手段,可以解决现有技术中,传统人脸位姿估计模型进行人脸位姿估计存在准确率低的问题,进而提高人脸位姿估计的准确率。
局部分组卷积模块内部从前到后依次为:卷积核为第一数量的分组卷积层、卷积核为第二数量的普通卷积层、卷积核为第一数量的普通卷积层、批归一化层和第一激活层。
比如局部分组卷积模块内部从前到后依次为:一个卷积核为3x3的分组卷积(分组卷积也叫多头卷积)、一个卷积核为1x1的普通卷积、一个卷积核为3x3的普通卷积、批归一化层和第一激活层(第一激活层可以是PReLU激活函数)。
卷积核为3x3的分组卷积按每个通道组对特征图进行变换,提取每个通道组的语义特征;卷积核为1x1的卷积对不同通道的语义特征(本公开中特征和特征图可以理解为一种)进行聚合;卷积核为3x3卷积同时对局部空间和通道的特征图进行聚合。统一设置组别(Group)数=32,以便快速推理。设输入特征图大小为CxWxH(C为通道数,W为宽,H为高),三层卷积输出的特征图大小分别为2CxWxH、CxWxH和CxWxH,即卷积核为3x3的分组卷积将通道数扩大为原来的2倍,卷积核为1x1的卷积将通道数还原。在每层卷积后,采用批归一化(BatchNorm)和PReLU激活函数,该策略在提升模型泛化性能的同时,能够提高推理速度。
空间注意力模块内部从前到后依次为:卷积核为第二数量的普通卷积层、批归一化层、第一激活层、卷积核为第三数量的普通卷积层、批归一化层、第二激活层。
考虑到人脸图片可能有口罩等遮挡的影响,需重点关注有效的空间位置,因此提出空间注意力模块。空间注意力模块是利用特征图的空间点之间的关系生成一个空间注意力图。不同于通道注意力,空间注意力聚焦于更有信息的区域。
比如首先应用卷积核为1x1的卷积聚合通道特征,该卷积核为1x1的卷积输出通道数为1,并采用批归一化(BatchNorm)和PReLU激活函数(第一激活层)进行处理,生成一个有效的特征描述子;在生成的特征描述子上,应用一个卷积核为7x7的卷积层,卷积核为7x7的卷积层后采用批归一化(BatchNorm)和Sigmoid激活函数(第二激活层),进而生成一个空间注意力图,空间注意力图编码了需要加强或抑制的区域。
为了更加形象的理解主体网络的内部结构,本公开实施例以算法的角度说明主体网络的内部结构:将残差网络的输出记作第一特征图;将第一特征图输入局部分组卷积模块,输出第二特征图;将第二特征图输入全局注意力模块,输出第三特征图;将第二特征图和第三特征图相加,得到第四特征图,将第一特征图和第四特征图相加,得到第五特征图,其中,第五特征图是主体网络的输出。
为了更加形象的理解全局注意力模块的内部结构,本公开实施例以算法的角度说明全局注意力模块的内部结构:将局部分组卷积模块的输出,记作第二特征图(全局注意力模块连接在局部分组卷积模块后);将第二特征图输入空间注意力模块,输出第六特征图;对第六特征图进行尺寸缩放处理,得到第七特征图,将第二特征图和第七特征图按照预设权值相加,得到第八特征图;将第八特征图输入Transformer模块,输出第三特征图,第三特征图是全局注意力模块的输出。
Transformer模块是常用的Transformer网络,本公开实施例对Transformer网络无改进。
自适应加权损失函数Loss:
Loss=p1Loss1+p2Loss2+p3Loss3
其中,Loss1、Loss2和Loss3分别为三个回归网络各自对应的损失函数,p1、p2和p3分别为Loss1、Loss2和Loss3对应的自适应权值参数;其中,在人脸位姿估计模型的训练中,三个回归网络估计各自对应的人脸位姿回归的难易程度,并根据估计结果调整各自对应的损失函数的自适应权值参数;其中,回归网络估计对应的人脸位姿回归的难度越大,该回归网络对应的损失函数的自适应权值参数越小。
可选地,自适应加权损失函数Loss:
Loss=p1Loss(angle1,label1)+p2Loss(angle2,label2)+p3Loss(angle3,label3)
Loss1为Loss(angle1,label1),Loss2为Loss(angle2,label2)和Loss3为Loss(angle3,label3)。angle1、angle2、angle3分别为是三种人脸角度,label1、label2、label3分别为是偏航角位姿、俯仰角位姿和翻滚角位姿三种标签。Loss1、Loss2和Loss3均可以是均方差误差损失函数。
上述所有可选技术方案,可以采用任意结合形成本申请的可选实施例,在此不再一一赘述。
下述为本公开装置实施例,可以用于执行本公开方法实施例。对于本公开装置实施例中未披露的细节,请参照本公开方法实施例。
图3是本公开实施例提供的一种人脸位姿估计装置的示意图。如图3所示,该人脸位姿估计装置包括:
构建模块301,被配置为利用卷积层、批归一化层和第一激活层构建局部分组卷积模块,利用空间注意力模块和Transformer模块构建全局注意力模块,利用残差网络、局部分组卷积模块和全局注意力模块构建主体网络;
模型模块302,被配置为在主体网络后接三个并行的回归网络,得到人脸位姿估计模型,其中,每个回归网络均由全局平均池化层和全连接层组成,每个回归网络对应一种人脸位姿以及关于该人脸位姿的损失函数;
分配模块303,被配置为为三个回归网络各自对应的损失函数分配一个自适应权值参数,以得到自适应加权损失函数;
训练模块304,被配置为依据自适应加权损失函数完成对人脸位姿估计模型的训练,利用训练好的人脸位姿估计模型进行人脸位姿估计。
每个回归网络均由一个全局平均池化层和一个全连接层组成。在对人脸位姿估计模型的训练中,利用每个回归网络对应的损失函数训练该回归网络对应的回归分支,该回归网络对应的回归分支估计该回归网络对应的人脸位姿,主体网络后接该回归网络为该回归网络对应的回归分支。
人脸位姿可以分为偏航角位姿yaw、俯仰角位姿pitch和翻滚角位姿roll三种(此处是人脸位姿估计领域常用的划分,不再赘述),所以主体网络后接三个并行的回归网络。
本公开实施例的主要的创造点在于对人脸位姿估计模型结构的改进以及针对改进后人脸位姿估计模型的结构提出一种相应的自适应加权损失函数。对人脸位姿估计模型的训练和常见的模型训练方法一样。
根据本公开实施例提供的技术方案,利用卷积层、批归一化层和第一激活层构建局部分组卷积模块,利用空间注意力模块和Transformer模块构建全局注意力模块,利用残差网络、局部分组卷积模块和全局注意力模块构建主体网络;在主体网络后接三个并行的回归网络,得到人脸位姿估计模型,其中,每个回归网络均由全局平均池化层和全连接层组成,每个回归网络对应一种人脸位姿以及关于该人脸位姿的损失函数;为三个回归网络各自对应的损失函数分配一个自适应权值参数,以得到自适应加权损失函数;依据自适应加权损失函数完成对人脸位姿估计模型的训练,利用训练好的人脸位姿估计模型进行人脸位姿估计,因此,采用上述技术手段,可以解决现有技术中,传统人脸位姿估计模型进行人脸位姿估计存在准确率低的问题,进而提高人脸位姿估计的准确率。
局部分组卷积模块内部从前到后依次为:卷积核为第一数量的分组卷积层、卷积核为第二数量的普通卷积层、卷积核为第一数量的普通卷积层、批归一化层和第一激活层。
比如局部分组卷积模块内部从前到后依次为:一个卷积核为3x3的分组卷积(分组卷积也叫多头卷积)、一个卷积核为1x1的普通卷积、一个卷积核为3x3的普通卷积、批归一化层和第一激活层(第一激活层可以是PReLU激活函数)。
卷积核为3x3的分组卷积按每个通道组对特征图进行变换,提取每个通道组的语义特征;卷积核为1x1的卷积对不同通道的语义特征(本公开中特征和特征图可以理解为一种)进行聚合;卷积核为3x3卷积同时对局部空间和通道的特征图进行聚合。统一设置组别(Group)数=32,以便快速推理。设输入特征图大小为CxWxH(C为通道数,W为宽,H为高),三层卷积输出的特征图大小分别为2CxWxH、CxWxH和CxWxH,即卷积核为3x3的分组卷积将通道数扩大为原来的2倍,卷积核为1x1的卷积将通道数还原。在每层卷积后,采用批归一化(BatchNorm)和PReLU激活函数,该策略在提升模型泛化性能的同时,能够提高推理速度。
空间注意力模块内部从前到后依次为:卷积核为第二数量的普通卷积层、批归一化层、第一激活层、卷积核为第三数量的普通卷积层、批归一化层、第二激活层。
考虑到人脸图片可能有口罩等遮挡的影响,需重点关注有效的空间位置,因此提出空间注意力模块。空间注意力模块是利用特征图的空间点之间的关系生成一个空间注意力图。不同于通道注意力,空间注意力聚焦于更有信息的区域。
比如首先应用卷积核为1x1的卷积聚合通道特征,该卷积核为1x1的卷积输出通道数为1,并采用批归一化(BatchNorm)和PReLU激活函数(第一激活层)进行处理,生成一个有效的特征描述子;在生成的特征描述子上,应用一个卷积核为7x7的卷积层,卷积核为7x7的卷积层后采用批归一化(BatchNorm)和Sigmoid激活函数(第二激活层),进而生成一个空间注意力图,空间注意力图编码了需要加强或抑制的区域。
可选地,构建模块301还被配置为将残差网络的输出记作第一特征图;将第一特征图输入局部分组卷积模块,输出第二特征图;将第二特征图输入全局注意力模块,输出第三特征图;将第二特征图和第三特征图相加,得到第四特征图,将第一特征图和第四特征图相加,得到第五特征图,其中,第五特征图是主体网络的输出。
可选地,构建模块301还被配置为将局部分组卷积模块的输出,记作第二特征图(全局注意力模块连接在局部分组卷积模块后);将第二特征图输入空间注意力模块,输出第六特征图;对第六特征图进行尺寸缩放处理,得到第七特征图,将第二特征图和第七特征图按照预设权值相加,得到第八特征图;将第八特征图输入Transformer模块,输出第三特征图,第三特征图是全局注意力模块的输出。
Transformer模块是常用的Transformer网络,本公开实施例对Transformer网络无改进。
自适应加权损失函数Loss:
Loss=p1Loss1+p2Loss2+p3Loss3
其中,Loss1、Loss2和Loss3分别为三个回归网络各自对应的损失函数,p1、p2和p3分别为Loss1、Loss2和Loss3对应的自适应权值参数;其中,在人脸位姿估计模型的训练中,三个回归网络估计各自对应的人脸位姿回归的难易程度,并根据估计结果调整各自对应的损失函数的自适应权值参数;其中,回归网络估计对应的人脸位姿回归的难度越大,该回归网络对应的损失函数的自适应权值参数越小。
可选地,自适应加权损失函数Loss:
Loss=p1Loss(angle1,label1)+p2Loss(angle2,label2)+p3Loss(angle3,label3)
Loss1为Loss(angle1,label1),Loss2为Loss(angle2,label2)和Loss3为Loss(angle3,label3)。angle1、angle2、angle3分别为是三种人脸角度,label1、label2、label3分别为是偏航角位姿、俯仰角位姿和翻滚角位姿三种标签。Loss1、Loss2和Loss3均可以是均方差误差损失函数。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本公开实施例的实施过程构成任何限定。
图4是本公开实施例提供的电子设备4的示意图。如图4所示,该实施例的电子设备4包括:处理器401、存储器402以及存储在该存储器402中并且可在处理器401上运行的计算机程序403。处理器401执行计算机程序403时实现上述各个方法实施例中的步骤。或者,处理器401执行计算机程序403时实现上述各装置实施例中各模块/单元的功能。
电子设备4可以是桌上型计算机、笔记本、掌上电脑及云端服务器等电子设备。电子设备4可以包括但不仅限于处理器401和存储器402。本领域技术人员可以理解,图4仅仅是电子设备4的示例,并不构成对电子设备4的限定,可以包括比图示更多或更少的部件,或者不同的部件。
处理器401可以是中央处理单元(Central Processing Unit,CPU),也可以是其它通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。
存储器402可以是电子设备4的内部存储单元,例如,电子设备4的硬盘或内存。存储器402也可以是电子设备4的外部存储设备,例如,电子设备4上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。存储器402还可以既包括电子设备4的内部存储单元也包括外部存储设备。存储器402用于存储计算机程序以及电子设备所需的其它程序和数据。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本公开实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,计算机程序可以存储在计算机可读存储介质中,该计算机程序在被处理器执行时,可以实现上述各个方法实施例的步骤。计算机程序可以包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、电载波信号、电信信号以及软件分发介质等。需要说明的是,计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如,在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
以上实施例仅用以说明本公开的技术方案,而非对其限制;尽管参照前述实施例对本公开进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本公开各实施例技术方案的精神和范围,均应包含在本公开的保护范围之内。

Claims (10)

1.一种人脸位姿估计方法,其特征在于,包括:
利用卷积层、批归一化层和第一激活层构建局部分组卷积模块,利用空间注意力模块和Transformer模块构建全局注意力模块,利用残差网络、所述局部分组卷积模块和所述全局注意力模块构建主体网络;
在所述主体网络后接三个并行的回归网络,得到人脸位姿估计模型,其中,每个回归网络均由全局平均池化层和全连接层组成,每个回归网络对应一种人脸位姿以及关于该人脸位姿的损失函数;
为三个回归网络各自对应的损失函数分配一个自适应权值参数,以得到自适应加权损失函数;
依据所述自适应加权损失函数完成对所述人脸位姿估计模型的训练,利用训练好的人脸位姿估计模型进行人脸位姿估计。
2.根据权利要求1所述的方法,其特征在于,所述局部分组卷积模块内部从前到后依次为:卷积核为第一数量的分组卷积层、所述卷积核为第二数量的普通卷积层、所述卷积核为所述第一数量的所述普通卷积层、所述批归一化层和所述第一激活层。
3.根据权利要求1所述的方法,其特征在于,所述空间注意力模块内部从前到后依次为:卷积核为第二数量的普通卷积层、所述批归一化层、所述第一激活层、所述卷积核为第三数量的所述普通卷积层、所述批归一化层、第二激活层。
4.根据权利要求1所述的方法,其特征在于,利用残差网络、所述局部分组卷积模块和所述全局注意力模块构建主体网络,包括:
将所述残差网络的输出记作第一特征图;
将所述第一特征图输入所述局部分组卷积模块,输出第二特征图;
将所述第二特征图输入所述全局注意力模块,输出第三特征图;
将所述第二特征图和所述第三特征图相加,得到第四特征图,将所述第一特征图和所述第四特征图相加,得到第五特征图,其中,所述第五特征图是所述主体网络的输出。
5.根据权利要求1所述的方法,其特征在于,利用空间注意力模块和Transformer模块构建全局注意力模块,包括:
将所述局部分组卷积模块的输出,记作第二特征图;
将所述第二特征图输入所述空间注意力模块,输出第六特征图;
对所述第六特征图进行尺寸缩放处理,得到第七特征图,将所述第二特征图和所述第七特征图按照预设权值相加,得到第八特征图;
将所述第八特征图输入所述Transformer模块,输出第三特征图,所述第三特征图是所述全局注意力模块的输出。
6.根据权利要求1所述的方法,其特征在于,自适应加权损失函数Loss:
Loss=p1Loss1+p2Loss2+p3Loss3
其中,Loss1、Loss2和Loss3分别为三个回归网络各自对应的损失函数,p1、p2和p3分别为Loss1、Loss2和Loss3对应的自适应权值参数;
其中,在所述人脸位姿估计模型的训练中,三个回归网络估计各自对应的人脸位姿回归的难易程度,并根据估计结果调整各自对应的损失函数的自适应权值参数;
其中,回归网络估计对应的人脸位姿回归的难度越大,该回归网络对应的损失函数的自适应权值参数越小。
7.根据权利要求1所述的方法,其特征在于,人脸位姿分为偏航角位姿、俯仰角位姿和翻滚角位姿三种。
8.一种人脸位姿估计装置,其特征在于,包括:
构建模块,被配置为利用卷积层、批归一化层和第一激活层构建局部分组卷积模块,利用空间注意力模块和Transformer模块构建全局注意力模块,利用残差网络、所述局部分组卷积模块和所述全局注意力模块构建主体网络;
模型模块,被配置为在所述主体网络后接三个并行的回归网络,得到人脸位姿估计模型,其中,每个回归网络均由全局平均池化层和全连接层组成,每个回归网络对应一种人脸位姿以及关于该人脸位姿的损失函数;
分配模块,被配置为为三个回归网络各自对应的损失函数分配一个自适应权值参数,以得到自适应加权损失函数;
训练模块,被配置为依据所述自适应加权损失函数完成对所述人脸位姿估计模型的训练,利用训练好的人脸位姿估计模型进行人脸位姿估计。
9.一种电子设备,包括存储器、处理器以及存储在所述存储器中并且可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述方法的步骤。
CN202310108179.1A 2023-02-01 2023-02-01 人脸位姿估计方法及装置 Pending CN116129501A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310108179.1A CN116129501A (zh) 2023-02-01 2023-02-01 人脸位姿估计方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310108179.1A CN116129501A (zh) 2023-02-01 2023-02-01 人脸位姿估计方法及装置

Publications (1)

Publication Number Publication Date
CN116129501A true CN116129501A (zh) 2023-05-16

Family

ID=86304424

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310108179.1A Pending CN116129501A (zh) 2023-02-01 2023-02-01 人脸位姿估计方法及装置

Country Status (1)

Country Link
CN (1) CN116129501A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116597427A (zh) * 2023-07-18 2023-08-15 山东科技大学 一种基于深度学习的舰船驾驶台身份识别方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116597427A (zh) * 2023-07-18 2023-08-15 山东科技大学 一种基于深度学习的舰船驾驶台身份识别方法
CN116597427B (zh) * 2023-07-18 2023-10-20 山东科技大学 一种基于深度学习的舰船驾驶台身份识别方法

Similar Documents

Publication Publication Date Title
WO2019056640A1 (zh) 订单处理方法及装置
CN109961141A (zh) 用于生成量化神经网络的方法和装置
WO2019001323A1 (zh) 信号处理的系统和方法
CN116129501A (zh) 人脸位姿估计方法及装置
CN116385328A (zh) 基于为图像添加噪声的图像数据增强方法及装置
CN110211017B (zh) 图像处理方法、装置及电子设备
CN110097004B (zh) 面部表情识别方法和装置
CN111783731B (zh) 用于提取视频特征的方法和装置
CN110489955B (zh) 应用于电子设备的图像处理、装置、计算设备、介质
CN116030520A (zh) 存在遮挡的人脸识别方法及装置
WO2024045320A1 (zh) 人脸识别方法及装置
CN115953803A (zh) 人体识别模型的训练方法及装置
CN109598344A (zh) 模型生成方法和装置
CN109670579A (zh) 模型生成方法和装置
CN111709784B (zh) 用于生成用户留存时间的方法、装置、设备和介质
CN111680754B (zh) 图像分类方法、装置、电子设备及计算机可读存储介质
CN116258915B (zh) 多个目标部位联合检测的方法及装置
CN117392731B (zh) 表情识别模型的训练方法和装置
CN116911928B (zh) 一种基于创意特征的广告推荐模型的训练方法及装置
WO2024031999A1 (zh) 图像分层方法、装置、电子设备及存储介质
CN116910566B (zh) 一种目标识别模型训练方法和装置
CN109240878B (zh) 数据处理方法和装置
CN114519884A (zh) 人脸识别方法、装置、电子设备及计算机可读存储介质
CN115830691A (zh) 人脸识别模型的训练方法及装置
CN116596813A (zh) 基于对图像进行破坏处理的图像数据增强方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination