CN112507848A - 一种移动端实时人脸姿态估计方法 - Google Patents

一种移动端实时人脸姿态估计方法 Download PDF

Info

Publication number
CN112507848A
CN112507848A CN202011396378.XA CN202011396378A CN112507848A CN 112507848 A CN112507848 A CN 112507848A CN 202011396378 A CN202011396378 A CN 202011396378A CN 112507848 A CN112507848 A CN 112507848A
Authority
CN
China
Prior art keywords
face
detector
anchor
anchor point
offset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011396378.XA
Other languages
English (en)
Other versions
CN112507848B (zh
Inventor
严安
周治尹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Dianze Intelligent Technology Co ltd
Zhongke Zhiyun Technology Co ltd
Original Assignee
Shanghai Dianze Intelligent Technology Co ltd
Zhongke Zhiyun Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Dianze Intelligent Technology Co ltd, Zhongke Zhiyun Technology Co ltd filed Critical Shanghai Dianze Intelligent Technology Co ltd
Priority to CN202011396378.XA priority Critical patent/CN112507848B/zh
Publication of CN112507848A publication Critical patent/CN112507848A/zh
Application granted granted Critical
Publication of CN112507848B publication Critical patent/CN112507848B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本申请提供一种移动端实时人脸姿态估计方法,该方法包括以下步骤:获取待检测图片,对待检测图片进行预处理;检测器加载预训练网络的参数,生成默认锚点;将预处理好的图片放入检测器中进行预测,使用主干网络中最后一个卷积层的特征与锚点相结合的方法进行关键点检测;将检测器得到的人脸框预测值和人脸关键点进行解码操作;采用阈值为0.4的NMS算法消除重叠检测框,得到人脸检测框、人脸关键点;分别计算人脸姿态偏航角(
Figure DEST_PATH_IMAGE001
)、俯仰角(
Figure 638394DEST_PATH_IMAGE002
)和翻滚角(
Figure DEST_PATH_IMAGE003
)。在上述的实现过程中,本申请采用二维图像三个人脸关键点计算人脸的姿态信息,无需通过人脸三维坐标信息,同时避免了当人脸出现遮挡物如口罩等无法计算人脸姿态信息的问题,较神经网络计算量小,实时性高。

Description

一种移动端实时人脸姿态估计方法
技术领域
本发明涉及姿态估计技术领域,尤其涉及一种移动端实时人脸姿态估计方法。
背景技术
人脸姿态估计是通过对一张人脸图像进行分析,获得脸部朝向的角度信息。姿态估计是多姿态问题中较为关键的步骤。一般可以用旋转矩阵、旋转向量、四元数或欧拉角表示。人脸的姿态变化通常包括上下俯仰(pitch)、左右旋转(yaw)以及平面内角度旋转(roll)。因此,姿态估计在多姿态人脸的识别算法中具有巨大的现实意义和实用价值。
目前,人脸姿态估计的方法包括将人脸图像从图像空间映射到姿态空间,该方法的需要获取人脸关键点的三维坐标信息,如中国专利(CN111222469A)所示的人脸姿态量化估计方法,其需要先检测人脸获取不便计算的人脸关键点三维坐标信息从而实现姿态估计;通过神经网络等模型对图像进行机器学习,从而获得姿态信息来进行分类,如中国专利(CN110826402A)所披露的基于多任务的人脸质量估计方法,其使用神经网络训练模型,需要大量的数据且耗时。
发明内容
本发明采用在二维图像上使用三个人脸关键点计算出人脸的姿态信息(偏航角、俯仰角和翻滚角),同时计算量相对于传统的神经网络小,实时性高。为解决上述技术问题,本发明提出一种移动端实时人脸姿态估计方法,包括以下步骤:
步骤S1:获取待检测图片,对待检测图片进行预处理;
步骤S2:检测器加载预训练网络的参数,并根据预先设定好的锚点的尺寸以及长宽比例,生成默认的锚点;所述检测器包括主干网络、预测层和多任务损失层构成;
步骤S3:将预处理好的图片放入所述检测器中进行预测,使用主干网络中最后一个卷积层的特征与锚点相结合的方法进行人脸检测和人脸关键点检测;
步骤S4:将所述检测器得到的人脸框预测值和人脸关键点预测值进行解码操作;
步骤S5:采用阈值为0.4的非极大值抑制算法(NMS算法)消除重叠检测框,得到最终的人脸检测框、人脸关键点,包括检测框的左上角坐标、右下角坐标、两只耳朵坐标和眉心坐标;
步骤S6:根据步骤S5得到的结果分别计算人脸姿态偏航角(
Figure 294247DEST_PATH_IMAGE002
)、俯仰角(
Figure 617912DEST_PATH_IMAGE004
)和翻滚角(
Figure 335332DEST_PATH_IMAGE006
)。
优选地,所述预训练网络的训练过程为:
采集人脸数据组成数据集,所述数据集的目标框比例和设定的锚点比例对应;采用颜色失真、增加亮度对比、随机裁剪和水平翻转等方法增加数据防止模型过拟合;
基于Pytorch开源深度学习库搭建和训练深度神经网络,采用动量为0.9,权重衰减因子为0.0005的梯度随机下降(SGD随机优化算法)进行网络训练;
在所述网络训练的前100轮,初始化学习率设置为
Figure 668225DEST_PATH_IMAGE008
,在之后的50轮和100轮各降低10倍。在训练期间,首先将每个预测值与最佳的Jaccard重叠锚点进行匹配,之后,将锚点匹配到具有高于0.35阈值的Jaccard重叠人脸;
将预处理好的图片放入预训练后的所述检测器中进行预测,将所述主干网络中的最后一个卷积层中的特征输入到预测层进行人脸框、人脸关键点定位等操作。对于每个锚点,使用相对其坐标的4个偏移量以及N个用于分类的分数进行表示,N=2;
在所述检测器训练时针对每个锚点,最小化式多任务损失函数:
Figure 154701DEST_PATH_IMAGE010
其中
Figure 649267DEST_PATH_IMAGE012
为交叉熵损失函数,检测锚点是否包含目标分类;
Figure 842265DEST_PATH_IMAGE014
为锚点有目标的概率,如果锚点包含目标,则
Figure 713269DEST_PATH_IMAGE016
,否则为0;
Figure 585410DEST_PATH_IMAGE018
采用smoth-L1损失函数用于人脸锚点定位,
Figure 782036DEST_PATH_IMAGE020
为预测框的坐标偏移量
Figure 5207DEST_PATH_IMAGE022
为正样本锚点的坐标偏移量;
Figure 945481DEST_PATH_IMAGE024
采用smoth-L1损失函数用于人脸关键点定位,
Figure 937708DEST_PATH_IMAGE026
为预测的关键点偏移量,
Figure 570814DEST_PATH_IMAGE028
为正样本关键点坐标偏移量;
其中
Figure 281282DEST_PATH_IMAGE030
Figure 759667DEST_PATH_IMAGE032
分别代表左耳预测关键点坐标偏移量和正样本关键点偏移量,
Figure 871980DEST_PATH_IMAGE034
Figure 410409DEST_PATH_IMAGE036
分别代表眉心预测关键点坐标偏移量和正样本关键点偏移量,
Figure 608172DEST_PATH_IMAGE038
Figure 890249DEST_PATH_IMAGE040
分别代表右耳预测关键点坐标偏移量和正样本关键点偏移量;
Figure 857068DEST_PATH_IMAGE042
Figure 831977DEST_PATH_IMAGE044
分别为人脸框和关键点损失函数的权重系数;锚点根据实际应用场景采用(40, 60, 80,120)来匹配相应的有效感受野。
优选地,所述解码操作过程为:
将所述检测器得到的人脸框预测值
Figure 251457DEST_PATH_IMAGE046
进行解码操作,转化为边界框的真实位置
Figure 337224DEST_PATH_IMAGE048
Figure 892971DEST_PATH_IMAGE050
Figure 304361DEST_PATH_IMAGE052
将所述检测器得到的人脸关键点偏移值
Figure 945557DEST_PATH_IMAGE054
,转化为关键点的真实位置
Figure 835016DEST_PATH_IMAGE056
Figure 510848DEST_PATH_IMAGE058
其中,
Figure 93139DEST_PATH_IMAGE060
表示生成的锚点。
优选地,所述的偏航角(
Figure 221632DEST_PATH_IMAGE062
)、俯仰角(
Figure 914782DEST_PATH_IMAGE064
)和翻滚角(
Figure 179541DEST_PATH_IMAGE066
)计算过程分别为:
偏航角计算过程为:
Figure 932733DEST_PATH_IMAGE068
Figure 548522DEST_PATH_IMAGE070
Figure 45363DEST_PATH_IMAGE072
;
俯仰角的计算过程为:
Figure 695787DEST_PATH_IMAGE074
Figure 88722DEST_PATH_IMAGE076
Figure 191807DEST_PATH_IMAGE078
;
翻滚角的计算过程为:
Figure 226759DEST_PATH_IMAGE080
Figure 997269DEST_PATH_IMAGE082
;
其中
Figure 826685DEST_PATH_IMAGE084
Figure 417066DEST_PATH_IMAGE086
是眉心与两耳连线垂直相交点坐标;
Figure 255709DEST_PATH_IMAGE088
Figure 349567DEST_PATH_IMAGE090
是左耳的坐标,
Figure 615464DEST_PATH_IMAGE092
Figure 693141DEST_PATH_IMAGE094
是眉心的坐标,
Figure 69896DEST_PATH_IMAGE096
Figure 549419DEST_PATH_IMAGE098
为右耳的坐标。
与现有技术相比,本发明的有益效果是:
本发明采用二维图像三个人脸关键点计算人脸的姿态信息(偏航角、俯仰角和翻滚角),无需通过人脸三维坐标信息,同时避免了当人脸出现遮挡物如口罩等无法计算人脸姿态信息的问题,相对于传统的神经网络计算量小,实时性高。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请提供的移动端实时人脸姿态估计方法的流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。
请参见图1本申请提供的移动端实时人脸姿态估计方法的流程示意图;一种移动端实时人脸姿态估计方法,包括以下步骤:
步骤S1:获取待检测图片,对待检测图片进行预处理;
步骤S2:检测器加载预训练网络的参数,并根据预先设定好的锚点的尺寸以及长宽比例,生成默认的锚点;所述检测器包括主干网络、预测层和多任务损失层构成;
步骤S3:将预处理好的图片放入所述检测器中进行预测,使用主干网络中最后一个卷积层的特征与锚点相结合的方法进行人脸检测和人脸关键点检测;
步骤S4:将所述检测器得到的人脸框预测值和人脸关键点预测值进行解码操作;
步骤S5:采用阈值为0.4的非极大值抑制算法(NMS算法)消除重叠检测框,得到最终的人脸检测框、人脸关键点,包括检测框的左上角坐标、右下角坐标、两只耳朵坐标和眉心坐标;
步骤S6:计算人脸姿态偏航角(
Figure 720637DEST_PATH_IMAGE100
)、俯仰角(
Figure 285610DEST_PATH_IMAGE102
)和翻滚角(
Figure 466056DEST_PATH_IMAGE104
)。
本申请的提供了预训练网络的训练过程,具体为:
采集人脸数据组成数据集,所述数据集的目标框比例和设定的锚点比例对应;采用颜色失真、增加亮度对比、随机裁剪和水平翻转等方法增加数据防止模型过拟合;
基于Pytorch开源深度学习库搭建和训练深度神经网络,采用动量为0.9,权重衰减因子为0.0005的梯度随机下降(SGD随机优化算法)进行网络训练;
在网络训练的前100轮,初始化学习率设置为
Figure 268927DEST_PATH_IMAGE106
,在之后的50轮和100轮各降低10倍。在训练期间,首先将每个预测值与最佳的Jaccard重叠锚点进行匹配,之后,将锚点匹配到具有高于0.35阈值的Jaccard重叠人脸;
将预处理好的图片放入预训练后的所述检测器中进行预测,将所述主干网络中的最后一个卷积层中的特征输入到预测层进行人脸框、人脸关键点定位等操作。对于每个锚点,使用相对其坐标的4个偏移量以及N个用于分类的分数进行表示,N=2;
在所述检测器训练时针对每个锚点,最小化多任务损失函数:
Figure 876626DEST_PATH_IMAGE108
其中
Figure 663316DEST_PATH_IMAGE110
为交叉熵损失函数,检测锚点是否包含目标分类;
Figure 128013DEST_PATH_IMAGE112
为锚点有目标的概率,如果锚点包含目标,则
Figure 582128DEST_PATH_IMAGE114
,否则为0;
Figure 360728DEST_PATH_IMAGE116
采用smoth-L1损失函数用于人脸锚点定位,
Figure 634715DEST_PATH_IMAGE118
为预测框的坐标偏移量,
Figure 156963DEST_PATH_IMAGE120
为正样本锚点的坐标偏移量;
Figure 934426DEST_PATH_IMAGE122
采用smoth-L1损失函数用于人脸关键点定位,
Figure 883928DEST_PATH_IMAGE124
为预测的关键点偏移量,
Figure 114052DEST_PATH_IMAGE126
为正样本关键点坐标偏移量;
其中
Figure 439991DEST_PATH_IMAGE128
Figure 337540DEST_PATH_IMAGE130
分别代表左耳预测关键点坐标偏移量和正样本关键点偏移量,
Figure 457943DEST_PATH_IMAGE132
Figure 706521DEST_PATH_IMAGE134
分别代表眉心预测关键点坐标偏移量和正样本关键点偏移量,
Figure 304993DEST_PATH_IMAGE136
Figure DEST_PATH_IMAGE138
分别代表右耳预测关键点坐标偏移量和正样本关键点偏移量;
Figure DEST_PATH_IMAGE140
Figure DEST_PATH_IMAGE142
分别为人脸框和关键点损失函数的权重系数;锚点根据实际应用场景采用(40, 60, 80,120)来匹配相应的有效感受野。
本申请的还提供了解码操作过程,具体为:
将检测器得到的所述人脸框预测值
Figure DEST_PATH_IMAGE144
进行解码操作,转化为边界框的真实位置
Figure DEST_PATH_IMAGE146
Figure DEST_PATH_IMAGE148
Figure DEST_PATH_IMAGE150
将所述检测器得到的所述人脸关键点预测值
Figure DEST_PATH_IMAGE152
,转化为关键点的真实位置
Figure DEST_PATH_IMAGE154
Figure DEST_PATH_IMAGE156
其中,
Figure DEST_PATH_IMAGE158
表示生成的锚点。
本申请的人脸姿态偏航角(
Figure DEST_PATH_IMAGE160
)、俯仰角(
Figure DEST_PATH_IMAGE162
)和翻滚角(
Figure DEST_PATH_IMAGE164
)计算过程分别为:
偏航角计算过程为:
Figure DEST_PATH_IMAGE166
Figure DEST_PATH_IMAGE168
Figure DEST_PATH_IMAGE170
俯仰角的计算过程为:
Figure DEST_PATH_IMAGE172
Figure DEST_PATH_IMAGE174
Figure DEST_PATH_IMAGE176
翻滚角的计算过程为:
Figure DEST_PATH_IMAGE178
Figure DEST_PATH_IMAGE180
其中
Figure DEST_PATH_IMAGE182
Figure DEST_PATH_IMAGE184
是眉心与两耳连线垂直相交点坐标;
Figure DEST_PATH_IMAGE186
Figure DEST_PATH_IMAGE188
是左耳的坐标,
Figure DEST_PATH_IMAGE190
Figure DEST_PATH_IMAGE192
是眉心的坐标,
Figure DEST_PATH_IMAGE194
Figure DEST_PATH_IMAGE196
为右耳的坐标。
在本发明的描述中,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。“多个”的含义是两个或两个以上,除非另有明确具体的限定。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必针对相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。

Claims (4)

1.一种移动端实时人脸姿态估计方法,其特征在于,包括以下步骤:
步骤S1:获取待检测图片,对待检测图片进行预处理;
步骤S2:检测器加载预训练网络的参数,并根据预先设定的锚点尺寸以及长宽比例,生成默认锚点;所述检测器由主干网络、预测层和多任务损失层构成;
步骤S3:将预处理的图片放入所述检测器中进行预测,使用所述主干网络中最后一个卷积层的特征与锚点结合的方法进行人脸检测和人脸关键点检测;
步骤S4:将所述检测器得到的人脸框预测值和人脸关键点预测值进行解码操作;
步骤S5:采用阈值为0.4的非极大值抑制算法(NMS算法)消除重叠检测框,得到最终的人脸检测框、人脸关键点,包括所述人脸检测框的左上角坐标、右下角坐标、两只耳朵坐标和眉心坐标;
步骤S6:分别计算人脸姿态偏航角(
Figure RE-DEST_PATH_IMAGE001
)、俯仰角(
Figure RE-330654DEST_PATH_IMAGE002
)和翻滚角(
Figure RE-DEST_PATH_IMAGE003
)。
2.根据权利要求1所述的方法,其特征在于,所述预训练网络的训练过程为:
采集人脸数据组成数据集,所述数据集的目标框比例和设定的锚点比例对应;采用颜色失真、增加亮度对比、随机裁剪和水平翻转等方法增加数据防止模型过拟合;
基于Pytorch开源深度学习库搭建和训练深度神经网络,采用动量为0.9,权重衰减因子为0.0005的梯度随机下降(SGD随机优化算法)进行网络训练;
在网络训练的前100轮,初始化学习率设置为
Figure RE-44532DEST_PATH_IMAGE004
,在之后的50轮和100轮各降低10倍;在训练期间,首先将每个预测值与最佳的Jaccard重叠锚点进行匹配,之后,将锚点匹配到具有高于0.35阈值的Jaccard重叠人脸;
将预处理好的图片放入预训练后的所述检测器中进行预测,将所述主干网络中的最后一个卷积层中的特征输入到预测层进行人脸框、人脸关键点定位等操作;对于每个锚点,使用相对其坐标的4个偏移量以及N个用于分类的分数进行表示,N=2;
在所述检测器训练时针对每个锚点,最小化多任务损失函数:
Figure RE-DEST_PATH_IMAGE005
其中
Figure RE-870275DEST_PATH_IMAGE006
为交叉熵损失函数,检测锚点是否包含目标分类;
Figure RE-DEST_PATH_IMAGE007
为锚点有目标的概率,如果锚点包含目标,则
Figure RE-62222DEST_PATH_IMAGE008
,否则为0;
Figure RE-DEST_PATH_IMAGE009
采用smoth-L1损失函数用于人脸锚点定位,
Figure RE-673332DEST_PATH_IMAGE010
为预测框的坐标偏移量,
Figure RE-DEST_PATH_IMAGE011
为正样本锚点的坐标偏移量;
Figure RE-777685DEST_PATH_IMAGE012
采用smoth-L1损失函数用于人脸关键点定位,
Figure RE-DEST_PATH_IMAGE013
为预测的关键点偏移量,
Figure RE-841456DEST_PATH_IMAGE014
为正样本关键点坐标偏移量;
其中
Figure RE-DEST_PATH_IMAGE015
Figure RE-837094DEST_PATH_IMAGE016
分别代表左耳预测关键点坐标偏移量和正样本关键点偏移量,
Figure RE-DEST_PATH_IMAGE017
Figure RE-817557DEST_PATH_IMAGE018
分别代表眉心预测关键点坐标偏移量和正样本关键点偏移量,
Figure RE-DEST_PATH_IMAGE019
Figure RE-607659DEST_PATH_IMAGE020
分别代表右耳预测关键点坐标偏移量和正样本关键点偏移量;
Figure RE-DEST_PATH_IMAGE021
Figure RE-643879DEST_PATH_IMAGE022
分别为人脸框和关键点损失函数的权重系数;锚点根据实际应用场景采用(40, 60, 80, 120)来匹配相应的有效感受野。
3.根据权利要求2所述的方法,其特征在于,所述解码操作过程为:
将所述检测器得到的所述人脸框偏移量预测值
Figure RE-DEST_PATH_IMAGE023
进行解码操作,转化为边界框的真实位置
Figure RE-443208DEST_PATH_IMAGE024
Figure RE-DEST_PATH_IMAGE025
Figure RE-497751DEST_PATH_IMAGE026
将所述检测器得到的所述人脸关键点偏移值
Figure RE-DEST_PATH_IMAGE027
,转化为关键点的真实位置
Figure RE-239180DEST_PATH_IMAGE028
Figure RE-DEST_PATH_IMAGE029
其中,
Figure RE-11964DEST_PATH_IMAGE030
表示生成的锚点。
4.根据权利要求3所述的方法,其特征在于,所述的偏航角(
Figure RE-DEST_PATH_IMAGE031
)、俯仰角(
Figure RE-83825DEST_PATH_IMAGE032
)和翻滚角(
Figure RE-DEST_PATH_IMAGE033
)计算过程分别为:
偏航角计算过程为:
Figure RE-274766DEST_PATH_IMAGE034
Figure RE-DEST_PATH_IMAGE035
Figure RE-406670DEST_PATH_IMAGE036
俯仰角的计算过程为:
Figure RE-DEST_PATH_IMAGE037
Figure RE-181597DEST_PATH_IMAGE038
Figure RE-DEST_PATH_IMAGE039
翻滚角的计算过程为:
Figure RE-57149DEST_PATH_IMAGE040
Figure RE-DEST_PATH_IMAGE041
其中
Figure RE-351864DEST_PATH_IMAGE042
Figure RE-DEST_PATH_IMAGE043
是眉心与两耳连线垂直相交点坐标;
Figure RE-405402DEST_PATH_IMAGE044
Figure RE-DEST_PATH_IMAGE045
为左耳的坐标,
Figure RE-152778DEST_PATH_IMAGE046
Figure RE-DEST_PATH_IMAGE047
是为右耳的坐标,
Figure RE-832021DEST_PATH_IMAGE048
Figure RE-DEST_PATH_IMAGE049
为眉心的坐标。
CN202011396378.XA 2020-12-03 2020-12-03 一种移动端实时人脸姿态估计方法 Active CN112507848B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011396378.XA CN112507848B (zh) 2020-12-03 2020-12-03 一种移动端实时人脸姿态估计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011396378.XA CN112507848B (zh) 2020-12-03 2020-12-03 一种移动端实时人脸姿态估计方法

Publications (2)

Publication Number Publication Date
CN112507848A true CN112507848A (zh) 2021-03-16
CN112507848B CN112507848B (zh) 2021-05-14

Family

ID=74969535

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011396378.XA Active CN112507848B (zh) 2020-12-03 2020-12-03 一种移动端实时人脸姿态估计方法

Country Status (1)

Country Link
CN (1) CN112507848B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112465078A (zh) * 2021-02-03 2021-03-09 成都点泽智能科技有限公司 跨摄像头行人轨迹处理方法、计算机设备及可读存储介质
CN113807330A (zh) * 2021-11-19 2021-12-17 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 面向资源受限场景的三维视线估计方法及装置
CN117238291A (zh) * 2023-11-14 2023-12-15 暗物智能科技(广州)有限公司 一种多模态语音拒识识别方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4179823A (en) * 1978-01-13 1979-12-25 The Singer Company Real-time simulation of a polygon face object system as viewed by a moving observer
CN101964064A (zh) * 2010-07-27 2011-02-02 上海摩比源软件技术有限公司 一种人脸比对方法
CN102054291A (zh) * 2009-11-04 2011-05-11 厦门市美亚柏科信息股份有限公司 一种基于单幅人脸图像实现三维人脸重建的方法及其装置
CN108985220A (zh) * 2018-07-11 2018-12-11 腾讯科技(深圳)有限公司 一种人脸图像处理方法、装置及存储介质
CN109829354A (zh) * 2018-11-29 2019-05-31 四川商通实业有限公司 一种基于深度学习的人脸识别方法
CN109919097A (zh) * 2019-03-08 2019-06-21 中国科学院自动化研究所 基于多任务学习的人脸和关键点联合检测系统、方法
CN110363052A (zh) * 2018-04-11 2019-10-22 杭州海康威视数字技术股份有限公司 确定图像中的人脸姿态的方法、装置及计算机设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4179823A (en) * 1978-01-13 1979-12-25 The Singer Company Real-time simulation of a polygon face object system as viewed by a moving observer
CN102054291A (zh) * 2009-11-04 2011-05-11 厦门市美亚柏科信息股份有限公司 一种基于单幅人脸图像实现三维人脸重建的方法及其装置
CN101964064A (zh) * 2010-07-27 2011-02-02 上海摩比源软件技术有限公司 一种人脸比对方法
CN110363052A (zh) * 2018-04-11 2019-10-22 杭州海康威视数字技术股份有限公司 确定图像中的人脸姿态的方法、装置及计算机设备
CN108985220A (zh) * 2018-07-11 2018-12-11 腾讯科技(深圳)有限公司 一种人脸图像处理方法、装置及存储介质
CN109829354A (zh) * 2018-11-29 2019-05-31 四川商通实业有限公司 一种基于深度学习的人脸识别方法
CN109919097A (zh) * 2019-03-08 2019-06-21 中国科学院自动化研究所 基于多任务学习的人脸和关键点联合检测系统、方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
AMIR MOEINI ET AL.: "Global attitude/position estimation using landmark and biased velocity measurements", 《IEEE TRANSACTIONS ON AEROSPACE AND ELECTRONICS SYSTEMS》 *
王迪: "基于人眼状态的疲劳检测算法研究与应用", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112465078A (zh) * 2021-02-03 2021-03-09 成都点泽智能科技有限公司 跨摄像头行人轨迹处理方法、计算机设备及可读存储介质
CN112465078B (zh) * 2021-02-03 2021-04-16 成都点泽智能科技有限公司 跨摄像头行人轨迹处理方法、计算机设备及可读存储介质
CN113807330A (zh) * 2021-11-19 2021-12-17 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 面向资源受限场景的三维视线估计方法及装置
CN117238291A (zh) * 2023-11-14 2023-12-15 暗物智能科技(广州)有限公司 一种多模态语音拒识识别方法

Also Published As

Publication number Publication date
CN112507848B (zh) 2021-05-14

Similar Documents

Publication Publication Date Title
CN112507848B (zh) 一种移动端实时人脸姿态估计方法
CN110910486B (zh) 室内场景光照估计模型、方法、装置、存储介质以及渲染方法
US11509824B2 (en) Method for tracking target in panoramic video, and panoramic camera
EP3576017A1 (en) Method, apparatus, and device for determining pose of object in image, and storage medium
CN110378997B (zh) 一种基于orb-slam2的动态场景建图与定位方法
CN108895981B (zh) 一种三维测量方法、装置、服务器和存储介质
JP6798183B2 (ja) 画像解析装置、画像解析方法およびプログラム
CN112348815A (zh) 图像处理方法、图像处理装置以及非瞬时性存储介质
CN113286194A (zh) 视频处理方法、装置、电子设备及可读存储介质
CN107248174A (zh) 一种基于tld算法的目标跟踪方法
CN113688907B (zh) 模型训练、视频处理方法,装置,设备以及存储介质
CN109241968B (zh) 图像内容倾斜角度预测网络训练方法及修正方法、系统
CN112037279B (zh) 物品位置识别方法和装置、存储介质、电子设备
CN115690382B (zh) 深度学习模型的训练方法、生成全景图的方法和装置
CN111798373A (zh) 一种基于局部平面假设及六自由度位姿优化的快速无人机图像拼接方法
JP2020149641A (ja) 物体追跡装置および物体追跡方法
US11961266B2 (en) Multiview neural human prediction using implicit differentiable renderer for facial expression, body pose shape and clothes performance capture
CN108229281B (zh) 神经网络的生成方法和人脸检测方法、装置及电子设备
CN113810611A (zh) 一种事件相机的数据模拟方法和装置
CN111144465A (zh) 一种面向多场景的烟雾检测算法及应用该算法的电子设备
CN115482523A (zh) 轻量级多尺度注意力机制的小物体目标检测方法及系统
CN114724251A (zh) 一种在红外视频下基于骨架序列的老人行为识别方法
WO2022208440A1 (en) Multiview neural human prediction using implicit differentiable renderer for facial expression, body pose shape and clothes performance capture
CN108734712B (zh) 背景分割的方法、装置及计算机存储介质
CN108961182A (zh) 针对视频图像的竖直方向灭点检测方法及视频扭正方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A real-time facial pose estimation method for mobile users

Effective date of registration: 20230313

Granted publication date: 20210514

Pledgee: Industrial Bank Co.,Ltd. Shanghai West sub branch

Pledgor: Shanghai dianze Intelligent Technology Co.,Ltd.|Zhongke Zhiyun Technology Co.,Ltd.

Registration number: Y2023310000060

PE01 Entry into force of the registration of the contract for pledge of patent right
PC01 Cancellation of the registration of the contract for pledge of patent right

Granted publication date: 20210514

Pledgee: Industrial Bank Co.,Ltd. Shanghai West sub branch

Pledgor: Shanghai dianze Intelligent Technology Co.,Ltd.|Zhongke Zhiyun Technology Co.,Ltd.

Registration number: Y2023310000060

PC01 Cancellation of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A real-time facial pose estimation method for mobile devices

Granted publication date: 20210514

Pledgee: Industrial Bank Co.,Ltd. Shanghai West sub branch

Pledgor: Shanghai dianze Intelligent Technology Co.,Ltd.|Zhongke Zhiyun Technology Co.,Ltd.

Registration number: Y2024310000204

PE01 Entry into force of the registration of the contract for pledge of patent right