CN112801069A - 一种人脸关键特征点检测装置、方法和存储介质 - Google Patents

一种人脸关键特征点检测装置、方法和存储介质 Download PDF

Info

Publication number
CN112801069A
CN112801069A CN202110398226.1A CN202110398226A CN112801069A CN 112801069 A CN112801069 A CN 112801069A CN 202110398226 A CN202110398226 A CN 202110398226A CN 112801069 A CN112801069 A CN 112801069A
Authority
CN
China
Prior art keywords
module
vector
attention
layer
key
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110398226.1A
Other languages
English (en)
Other versions
CN112801069B (zh
Inventor
桑高丽
卢丽
韩强
闫超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Yifei Technology Co ltd
Original Assignee
Sichuan Yifei Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Yifei Technology Co ltd filed Critical Sichuan Yifei Technology Co ltd
Priority to CN202110398226.1A priority Critical patent/CN112801069B/zh
Publication of CN112801069A publication Critical patent/CN112801069A/zh
Application granted granted Critical
Publication of CN112801069B publication Critical patent/CN112801069B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种人脸关键特征点检测装置、方法和存储介质,输入人脸图像并通过卷积模块提取包含人脸关键点位置信息的特征图,然后输入到自注意力变换模块;所述评估向量通过若干个自注意力变换模块进行多次注意力变换融合特征图中的信息;最后通过输出全连接层输出人脸关键特征点的坐标。本发明融合了卷积神经网络的参数量小、训练效率高,以及自注意力变换网络的归纳偏置少、网络精度高的优势,用于人脸关键特点检测,可以降低网络运算量,有效提升检测精度。

Description

一种人脸关键特征点检测装置、方法和存储介质
技术领域
本发明属于计算机机器视觉中的人脸关键特征点检测的技术领域,具体涉及一种人脸关键特征点检测装置、方法和存储介质。
背景技术
计算机机器视觉中的人脸关键特征点检测技术,用于检测人脸图像中,关键特征点的位置。人脸关键特征点包含如眼睛,眉毛,鼻子,嘴唇,脸边缘轮廓等。人脸关键特征点的位置信息广泛用于多种下游任务,如人脸识别,人脸图像美化,人脸建模等。
近年来人脸关键特征点的检测方法,一般可分为基于深度学习和非深度学习两类。非深度学习的方法主要有集成回归树等,优点是速度快,但是定位精度较差,特别是人脸在大角度时,定位误差较大。基于深度学习的方法一般都采用了卷积神经网络,通过全连接层输出关键点的坐标,或者是输出关键点对应的热力图的方式,如Hourglass等网络。但是这类网络,往往需要较大的运算量,对于运行设备的算力要求较高,限制其应用的范围。
因此,急需要提出一种计算工作量少、精度高的人脸关键特征点检测方法,或装置和电子设备。
发明内容
本发明的目的在于提供一种人脸关键特征点检测装置、方法和存储介质,旨在解决上述问题。
本发明主要通过以下技术方案实现:
一种人脸关键特征点检测装置,包括数据获取模块、检测模块;所述数据获取模块用于获取人脸图像,所述检测模块用于将人脸图像输入网络模型进行提取包含人脸关键点位置信息的特征图并处理输出人脸关键特征点的坐标;所述网络模型包括第一模块和第二模块,所述第一模块由从前至后依次设置的第一卷积层、第一批归一化层、第一激活层以及若干个重复堆叠的卷积模块组成;所述第二模块由从前至后依次设置的评估向量、若干个自注意力变换模块以及输出全连接层组成;所述第一模块两端的卷积模块分别与第二模块两端的自注意力变换模块连接,且中部的卷积模块与第二模块中部的自注意力变换模块连接;
所述人脸图像作为第一模块的输入,所述卷积模块用于提取包含人脸关键点位置信息的特征图,并输入到自注意力变换模块;所述评估向量通过若干个自注意力变换模块进行多次注意力变换融合特征图中的信息;所述输出全连接层输出人脸关键特征点的坐标。即输出人脸关键特征的位置,完成检测。
本发明在人脸图像输入网络模型后,利用卷积模块提取包含人脸关键点位置信息的特征图。同时,利用评估向量,通过多个注意力变换,融合特征图中的信息,最后从输出全连接层中输出人脸关键特征点的坐标。本发明融合了卷积神经网络的参数量小,训练效率高,以及自注意力变换网络的归纳偏置少,网络精度高的优势,用于人脸关键特点检测,可以降低网络运算量,提升检测精度。
为了更好地实现本发明,进一步地,所述自注意力变换模块由从前至后依次设置的单向多头注意力计算模块、投影模块、多层前传模块构成;所述单向多头注意力计算模块用于计算评估向量与特征图上各特征点的相关性,得到注意力图,并通过注意力图计算新的评估向量;所述投影模块由从前至后依次设置的全连接层、归一化层和激活层构成,用于调整新的评估向量的维度,使得新评估向量的维度与原始评估向量的维度保持一致;所述多层前传模块由从前至后依次设置的全连接层、归一化层、激活层、全连接层、归一化层、激活层构成,用于使评估向量内部信息实现交流。本发明将新评估向量与原始评估向量相加,构成一个残差连接,使得模型更易于训练。本发明通过自注意力变换模块使评估向量能够关注和聚合特征图上与人脸关键特征点相关的特征点信息,并进行更新,得到具有更为丰富的人脸关键特征点信息的评估向量。
为了更好地实现本发明,进一步地,将卷积模块输出的特征图以及评估向量作为所述单向多头注意力计算模块的输入,对于单向多头注意力计算模块的每一个头,首先将特征图通过变形和全连接层计算得到键向量和值向量,然后将评估向量通过全连接层计算得到查询向量;由查询向量与键向量计算获得注意力图,将值向量根据注意力图进行加权求和,得到单头输出的评估向量;将单向多头注意力计算模块的所有头的评估向量进行通道拼接后作为输出。
每个头的评估向量通过注意力图,关注人脸关键特征点相对应位置的特征图上的特征点信息。多个头可以生成多个不同的注意力图,分别关注不同的特征点信息。同时,注意力图只单向的计算评估向量对于特征图不同位置的注意力,而不计算特征图内部点之间的注意力,相比普通的自注意力模块,将计算的复杂度由
Figure DEST_PATH_IMAGE001
,减少为
Figure DEST_PATH_IMAGE002
,大大的减少了计算量。其中,H为图像的高,W为图像的宽,此处为本领域的常规表达,故不再赘述。单个头的计算流程可以以下公式给出:
Figure DEST_PATH_IMAGE003
其中,M代表卷积模块得到的特征图,F代表评估向量,K为键向量,V为值向量,Q为查询向量,Attn为注意力图,F′为更新后的评估向量。
reshape()为变形操作函数,dense()为全连接层操作函数,softmax()为softmax函数,T代表矩阵的转置,x代表矩阵乘。
为了更好地实现本发明,进一步地,当预测的关键点数量小于等于10时,所述单向多头注意力计算模块的头的数量为1;当预测的关键点数量大于10且小于等于20时,所述单向多头注意力计算模块的头的数量为2;当预测的关键点数量大于20且小于等于70时,所述单向多头注意力计算模块的头的数量为4;当预测的关键点数量大于70时,所述单向多头注意力计算模块的头的数量为8。
为了更好地实现本发明,进一步地,所述评估向量为一维的向量,且评估向量的向量长度范围为128-512。评估向量为一维的向量,向量长度不应过长,增加网络计算量,也不应过短,无法包含足够的关于人脸关键点坐标位置的先验信息。
所述评估向量为一维的向量,初始值通过神经网络训练给定,并通过多个自注意力变换模块,逐步聚合卷积模块生成的特征图中的人脸关键点信息。最后通过输出全连接层输出人脸关键特征点的坐标。
为了更好地实现本发明,进一步地,所述输出全连接层的输出维度为网络所需预测的关键点数量的2倍。输出维度分别表示关键点的x坐标值和y坐标值。
为了更好地实现本发明,进一步地,所述卷积模块包括从前至后依次设置的卷积层、批归一化层、激活层、深度可分离卷积层、批归一化层、激活层、卷积层和批归一化层;若卷积模块不进行下采样,则将卷积模块的输入与最后的批归一化层的输出相加作为卷积模块的输出;若卷积模块进行下采样,则将卷积模块的最后的批归一化层的输出作为卷积模块的输出。
本发明主要通过以下技术方案实现:
一种人脸关键特征点检测方法,采用上述的检测装置进行,包括以下步骤:
步骤S100:获取人脸图像,并通过卷积模块提取得到包含人脸关键点位置信息的特征图;
步骤S200:将包含人脸关键点位置信息的特征图输入自注意力变换模块,评估向量通过若干个自注意力变换模块进行多次注意力变换融合特征图中的信息;在自注意力变换模块中,首先将卷积模块输出的特征图以及评估向量输入单向多头注意力计算模块,计算评估向量与特征图上各特征点的相关性,得到注意力图,并通过注意力图计算新的评估向量;然后将新的评估向量输入投影模块,使得新评估向量的维度与原始评估向量的维度保持一致;最后通过多层前传模块使评估向量内部信息实现交流;
步骤S300:最后通过输出全连接层输出人脸关键特征点的坐标,即输出人脸关键特征的位置,完成检测。
为了更好地实现本发明,进一步地,所述步骤S200包括以下步骤:
步骤S201:对于单向多头注意力计算模块的每一个头,首先将特征图通过变形和全连接层计算得到键向量和值向量,
步骤S202:然后将评估向量通过全连接层计算得到查询向量;由查询向量与键向量计算获得注意力图,将值向量根据注意力图进行加权求和,得到单头输出的评估向量;
步骤S203:最后将单向多头注意力计算模块的所有头的评估向量进行通道拼接后输出新的评估向量。
一种计算机可读存储介质,存储有计算机程序指令,所述程序指令被处理器执行时实现上述的人脸关键特征点检测方法。
本发明的有益效果:
(1)本发明融合了卷积神经网络的参数量小,训练效率高,以及自注意力变换网络的归纳偏置少,网络精度高的优势,用于人脸关键特点检测,可以降低网络运算量,提升检测精度;
(2)本发明利用评估向量,通过注意力变换模快,逐步的收集融合卷积模块得到的特征图中的相关信息,可以有效提升网络精度;
(3)本发明通过自注意力变换模块使评估向量能够关注和聚合特征图上与人脸关键特征点相关的特征点信息,并进行更新,得到具有更为丰富的人脸关键特征点信息的评估向量;
(4)本发明利用利用了单向多头注意力计算模块,相比普通的自注意力模块,将计算的复杂度由
Figure DEST_PATH_IMAGE004
,减少为
Figure DEST_PATH_IMAGE005
,大大的减少了计算量;
(5)本发明利用的单向多头注意力计算模块中,头的数量设置,可根据网络需要预测的人脸关键点数量灵活调整,达到精度与性能的平衡。
附图说明
图1为本发明的整体结构示意图;
图2为本发明的不进行下采样的卷积模块的结构示意图;
图3为本发明的进行下采样的卷积模块的结构示意图;
图4为本发明的单头注意力计算模块的原理框图;
图5为本发明的单向多头注意力计算模块的原理框图;
图6为本发明的投影模块的结构示意图;
图7为本发明的多层前传模块的结构示意图;
图8为本发明的自注意力变换模块的结构示意图。
具体实施方式
实施例1:
一种人脸关键特征点检测装置,如图1所示,包括数据获取模块、检测模块;所述数据获取模块用于获取人脸图像,所述检测模块用于将人脸图像输入网络模型进行提取包含人脸关键点位置信息的特征图并处理输出人脸关键特征点的坐标;所述网络模型包括第一模块和第二模块,所述第一模块由从前至后依次设置的第一卷积层、第一批归一化层、第一激活层以及若干个重复堆叠的卷积模块组成;所述第二模块由从前至后依次设置的评估向量、若干个自注意力变换模块以及输出全连接层组成;所述第一模块两端的卷积模块分别与第二模块两端的自注意力变换模块连接,且中部的卷积模块与第二模块中部的自注意力变换模块连接。
所述人脸图像作为第一模块的输入,所述卷积模块用于提取包含人脸关键点位置信息的特征图,并输入到自注意力变换模块;所述评估向量通过若干个自注意力变换模块进行多次注意力变换融合特征图中的信息;所述输出全连接层输出人脸关键特征点的坐标,完成检测。
本发明在人脸图像输入网络模型后,利用卷积模块提取包含人脸关键点位置信息的特征图。同时,利用评估向量,通过多个注意力变换,融合特征图中的信息,最后从输出全连接层中输出人脸关键特征点的坐标。本发明融合了卷积神经网络的参数量小,训练效率高,以及自注意力变换网络的归纳偏置少,网络精度高的优势,用于人脸关键特点检测,可以降低网络运算量,提升检测精度。
实施例2:
本实施例是在实施例1的基础上进行优化,如图8所示,所述自注意力变换模块由从前至后依次设置的单向多头注意力计算模块、投影模块、多层前传模块构成;所述单向多头注意力计算模块用于计算评估向量与特征图上各特征点的相关性,得到注意力图,并通过注意力图计算新的评估向量;如图6所示,所述投影模块由从前至后依次设置的全连接层、归一化层和激活层构成,用于调整新的评估向量的维度,使得新评估向量的维度与原始评估向量的维度保持一致;如图7所示,所述多层前传模块由从前至后依次设置的全连接层、归一化层、激活层、全连接层、归一化层、激活层构成,用于使评估向量内部信息实现交流。本发明通过自注意力变换模块使评估向量能够关注和聚合特征图上与人脸关键特征点相关的特征点信息,并进行更新,得到具有更为丰富的人脸关键特征点信息的评估向量。
进一步地,如图4所示,将卷积模块输出的特征图以及评估向量作为所述单向多头注意力计算模块的输入,对于单向多头注意力计算模块的每一个头,首先将特征图通过变形和全连接层计算得到键向量和值向量,然后将评估向量通过全连接层计算得到查询向量;由查询向量与键向量计算获得注意力图,将值向量根据注意力图进行加权求和,得到单头输出的评估向量;如图5所示,将单向多头注意力计算模块的所有头的评估向量进行通道拼接后作为输出。
进一步地,当预测的关键点数量小于等于10时,所述单向多头注意力计算模块的头的数量为1;当预测的关键点数量大于10且小于等于20时,所述单向多头注意力计算模块的头的数量为2;当预测的关键点数量大于20且小于等于70时,所述单向多头注意力计算模块的头的数量为4;当预测的关键点数量大于70时,所述单向多头注意力计算模块的头的数量为8。
本实施例的其他部分与实施例1相同,故不再赘述。
实施例3:
本实施例是在实施例1或2的基础上进行优化,如图2、图3所示,所述卷积模块包括从前至后依次设置的卷积层、批归一化层、激活层、深度可分离卷积层、批归一化层、激活层、卷积层和批归一化层;若卷积模块不进行下采样,则将卷积模块的输入与最后的批归一化层的输出相加作为卷积模块的输出;若卷积模块进行下采样,则将卷积模块的最后的批归一化层的输出作为卷积模块的输出。
进一步地,所述评估向量为一维的向量,且评估向量的向量长度范围为128-512。所述评估向量为一维的向量,初始值通过神经网络训练给定,并通过多个自注意力变换模块,逐步聚合卷积模块生成的特征图中的人脸关键点信息。最后通过输出全连接层输出人脸关键特征点的坐标。评估向量为一维的向量,向量长度不应过长,增加网络计算量,也不应过短,无法包含足够的关于人脸关键点坐标位置的先验信息。
进一步地,所述输出全连接层的输出维度为网络所需预测的关键点数量的2倍,分别表示关键点的x坐标值和y坐标值。
本实施例的其他部分与上述实施例1或2相同,故不再赘述。
实施例4:
一种人脸关键特征点检测方法,采用上述检测装置进行,包括以下步骤:
步骤S100:获取人脸图像,并通过卷积模块提取得到包含人脸关键点位置信息的特征图;
步骤S200:将包含人脸关键点位置信息的特征图输入自注意力变换模块,评估向量通过若干个自注意力变换模块进行多次注意力变换融合特征图中的信息;在自注意力变换模块中,首先将卷积模块输出的特征图以及评估向量输入单向多头注意力计算模块,计算评估向量与特征图上各特征点的相关性,得到注意力图,并通过注意力图计算新的评估向量;然后将新的评估向量输入投影模块,使得新评估向量的维度与原始评估向量的维度保持一致;最后通过多层前传模块使评估向量内部信息实现交流;
步骤S300:最后通过输出全连接层输出人脸关键特征点的坐标,即输出人脸关键特征的位置,完成检测。
进一步地,所述步骤S200包括以下步骤:
步骤S201:对于单向多头注意力计算模块的每一个头,首先将特征图通过变形和全连接层计算得到键向量和值向量,
步骤S202:然后将评估向量通过全连接层计算得到查询向量;由查询向量与键向量计算获得注意力图,将值向量根据注意力图进行加权求和,得到单头输出的评估向量;
步骤S203:最后将单向多头注意力计算模块的所有头的评估向量进行通道拼接后输出新的评估向量。
本发明融合了卷积神经网络的参数量小,训练效率高,以及自注意力变换网络的归纳偏置少,网络精度高的优势,用于人脸关键特点检测,可以降低网络运算量,提升检测精度。
实施例5:
一种人脸关键特征点检测方法,包括以下步骤:
第一步,如图2、图3所示,构建卷积模块。卷积模块包含有依次连接的卷积层、批归一化层、激活层、深度可分离卷积层、批归一化层、激活层、卷积层和批归一化层。如果卷积模块进行不下采样,则将模块的输入与最后的批归一化层输出相加,作为模块的输出。如果卷积模块进行采样,则将最后的批归一化层的输出作为模块的输出。卷积模块的输出为包含人脸关键点位置信息的特征图。
第二步,如图4-图8所示,构建自注意力变换模块,所述注意力变换模块由顺序连接的单向多头注意力计算模块,投影模块,多层前传模块构成。所述单向多头注意力计算模块用于计算评估向量与特征图上各特征点的相关性,得到注意力图,并通过注意力图计算新的评估向量。所述投影模块将新的评估向量,通过一个全连接层,调整向量的维度,使得新评估向量的维度与原始评估向量的维度保持一致。所述多层前传模块,由两个全连接层构成,使得评估向量内部信息能够交流。通过这种方式,使得评估向量,能够关注和聚合特征图上与人脸关键特征点相关的特征点信息,并进行更新,得到具有更为丰富的人脸关键特征点信息的评估向量。
其中,如图4所示,单向多头注意力计算模块,输入为卷积模块得到的特征图和评估向量。对与单向多头注意力计算模块中的每一个头,首先将特征图通过全连接层计算得到键向量和值向量,然后将评估向量通过全连接层计算得到查询向量。注意力图由查询向量与键向量计算获得,将值向量根据注意力图进行加权求和,得到该头输出的评估向量。如图5所示,将所有头的评估向量向量进行通道拼接,得到评估向量为单向多头注意力计算模块。每个头的评估向量通过注意力图,关注人脸关键特征点相对应位置的特征图上的特征点信息。多个头可以生成多个不同的注意力图,分别关注不同的特征点信息。同时,注意力图只单向的计算评估向量对于特征图不同位置的注意力,而不计算特征图内部点之间的注意力,相比普通的自注意力模块,将计算的复杂度由
Figure 126110DEST_PATH_IMAGE001
,减少为
Figure DEST_PATH_IMAGE006
,大大的减少了计算量。单个头的计算流程可以以下公式给出:
Figure DEST_PATH_IMAGE007
公式中,M代表卷积模块得到的特征图,F代表评估向量,K为键向量,V为值向量,Q为查询向量,Attn为注意力图,F’为更新后的评估向量。Reshape()为变形操作函数,dense()为全连接层操作函数,softmax()为softmax函数,T代表矩阵的转置,x代表矩阵乘。
第三步,构建一个评估向量,评估向量为一维的向量,向量长度不应过长,增加网络计算量,也不应过短,无法包含足够的关于人脸关键点坐标位置的先验信息,取值范围应在128至512之间。评估向量的具体值由网络训练确定。
第四步,如图1所示,构建融合了卷积和自注意力变换机制的深度神经网络模型。网络模型包括第一卷积层,第一批归一化层和第一激活层、多次重复堆叠的卷积模块,评估向量,第一自注意力变换模块,第二自注意力变换模块和第三自注意力变换模块,输出全连接层。
将人脸图像输入网络模型后,利用卷积模块提取包含人脸关键点位置信息的特征图。同时,利用评估向量,通过多个注意力变换,融合特征图中的信息,最后从输出全连接层中输出人脸关键特征点的坐标。
为了验证本方法的可行性和良好的性能,本实施例通过私有的人脸关键特征点检测数据集进行实验。数据集中包含有各类常见各类姿态的人脸图像共4289张,其中670张用于测试集。其余作为训练集用于网络的训练。
在本实验中,实验组为采用本实施例构建的神经网络。对照组参照实验中,移除实验组中的评估向量和所有自注意力变换模块而构成的卷积神经网络。两组网络均需要预测包含眼角,眉毛,鼻子,嘴角等17个关键点的坐标。网络的输入均采用长宽为128像素的人脸图像。评价标准为NME(%),即归一化的平均误差,该值越小越好,以及NME<5%的检测准确率,该值越大越好。
表1
Figure DEST_PATH_IMAGE008
如表1所示,本实施例用于人脸关键点检测,对比常见的卷积神经网络,能够大幅提升准确率。本发明中的单向多头注意力计算模块,其运算量也很小,有利于网络的部署和应用。
以上所述,仅是本发明的较佳实施例,并非对本发明做任何形式上的限制,凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化,均落入本发明的保护范围之内。

Claims (10)

1.一种人脸关键特征点检测装置,其特征在于,包括数据获取模块、检测模块;所述数据获取模块用于获取人脸图像,所述检测模块用于将人脸图像输入网络模型进行提取包含人脸关键点位置信息的特征图并处理输出人脸关键特征点的坐标;所述网络模型包括第一模块和第二模块,所述第一模块由从前至后依次设置的第一卷积层、第一批归一化层、第一激活层以及若干个重复堆叠的卷积模块组成;所述第二模块由从前至后依次设置的评估向量、若干个自注意力变换模块以及输出全连接层组成;所述第一模块两端的卷积模块分别与第二模块两端的自注意力变换模块连接,且中部的卷积模块与第二模块中部的自注意力变换模块连接;
所述人脸图像作为第一模块的输入,所述卷积模块用于提取包含人脸关键点位置信息的特征图,并输入到自注意力变换模块;所述评估向量通过若干个自注意力变换模块进行多次注意力变换融合特征图中的信息;所述输出全连接层输出人脸关键特征点的坐标。
2.根据权利要求1所述的一种人脸关键特征点检测装置,其特征在于,所述自注意力变换模块由从前至后依次设置的单向多头注意力计算模块、投影模块、多层前传模块构成;所述单向多头注意力计算模块用于计算评估向量与特征图上各特征点的相关性,得到注意力图,并通过注意力图计算新的评估向量;所述投影模块由从前至后依次设置的全连接层、归一化层和激活层构成,用于调整新的评估向量的维度,使得新评估向量的维度与原始评估向量的维度保持一致;所述多层前传模块由从前至后依次设置的全连接层、归一化层、激活层、全连接层、归一化层、激活层构成,用于使评估向量内部信息实现交流。
3.根据权利要求2所述的一种人脸关键特征点检测装置,其特征在于,将卷积模块输出的特征图以及评估向量作为所述单向多头注意力计算模块的输入,对于单向多头注意力计算模块的每一个头,首先将特征图通过变形和全连接层计算得到键向量和值向量,然后将评估向量通过全连接层计算得到查询向量;由查询向量与键向量计算获得注意力图,将值向量根据注意力图进行加权求和,得到单头输出的评估向量;将单向多头注意力计算模块的所有头的评估向量进行通道拼接后作为输出。
4.根据权利要求3所述的一种人脸关键特征点检测装置,其特征在于,当预测的关键点数量小于等于10时,所述单向多头注意力计算模块的头的数量为1;当预测的关键点数量大于10且小于等于20时,所述单向多头注意力计算模块的头的数量为2;当预测的关键点数量大于20且小于等于70时,所述单向多头注意力计算模块的头的数量为4;当预测的关键点数量大于70时,所述单向多头注意力计算模块的头的数量为8。
5.根据权利要求1所述的一种人脸关键特征点检测装置,其特征在于,所述评估向量为一维的向量,且评估向量的向量长度范围为128-512。
6.根据权利要求1所述的一种人脸关键特征点检测装置,其特征在于,所述输出全连接层的输出维度为网络所需预测的关键点数量的2倍。
7.根据权利要求1-6任一项所述的一种人脸关键特征点检测装置,其特征在于,所述卷积模块包括从前至后依次设置的卷积层、批归一化层、激活层、深度可分离卷积层、批归一化层、激活层、卷积层和批归一化层;若卷积模块不进行下采样,则将卷积模块的输入与最后的批归一化层的输出相加作为卷积模块的输出;若卷积模块进行下采样,则将卷积模块的最后的批归一化层的输出作为卷积模块的输出。
8.一种人脸关键特征点检测方法,采用权利要求1-7任一项所述的检测装置进行,其特征在于,包括以下步骤:
步骤S100:获取人脸图像,并通过卷积模块提取得到包含人脸关键点位置信息的特征图;
步骤S200:将包含人脸关键点位置信息的特征图输入自注意力变换模块,评估向量通过若干个自注意力变换模块进行多次注意力变换融合特征图中的信息;在自注意力变换模块中,首先将卷积模块输出的特征图以及评估向量输入单向多头注意力计算模块,计算评估向量与特征图上各特征点的相关性,得到注意力图,并通过注意力图计算新的评估向量;然后将新的评估向量输入投影模块,使得新评估向量的维度与原始评估向量的维度保持一致;最后通过多层前传模块使评估向量内部信息实现交流;
步骤S300:最后通过输出全连接层输出人脸关键特征点的坐标,完成检测。
9.根据权利要求8所述的一种人脸关键特征点检测方法,其特征在于,所述步骤S200包括以下步骤:
步骤S201:对于单向多头注意力计算模块的每一个头,首先将特征图通过变形和全连接层计算得到键向量和值向量,
步骤S202:然后将评估向量通过全连接层计算得到查询向量;由查询向量与键向量计算获得注意力图,将值向量根据注意力图进行加权求和,得到单头输出的评估向量;
步骤S203:最后将单向多头注意力计算模块的所有头的评估向量进行通道拼接后输出新的评估向量。
10.一种计算机可读存储介质,存储有计算机程序指令,其特征在于,所述程序指令被处理器执行时实现权利要求8或9所述的方法。
CN202110398226.1A 2021-04-14 2021-04-14 一种人脸关键特征点检测装置、方法和存储介质 Active CN112801069B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110398226.1A CN112801069B (zh) 2021-04-14 2021-04-14 一种人脸关键特征点检测装置、方法和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110398226.1A CN112801069B (zh) 2021-04-14 2021-04-14 一种人脸关键特征点检测装置、方法和存储介质

Publications (2)

Publication Number Publication Date
CN112801069A true CN112801069A (zh) 2021-05-14
CN112801069B CN112801069B (zh) 2021-06-29

Family

ID=75811353

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110398226.1A Active CN112801069B (zh) 2021-04-14 2021-04-14 一种人脸关键特征点检测装置、方法和存储介质

Country Status (1)

Country Link
CN (1) CN112801069B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113243886A (zh) * 2021-06-11 2021-08-13 四川翼飞视科技有限公司 一种基于深度学习的视力检测系统、方法和存储介质
CN114360032A (zh) * 2022-03-17 2022-04-15 北京启醒科技有限公司 一种多态不变性人脸识别方法及系统

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110111365A (zh) * 2019-05-06 2019-08-09 深圳大学 基于深度学习的训练方法和装置以及目标跟踪方法和装置
CN110458133A (zh) * 2019-08-19 2019-11-15 电子科技大学 基于生成式对抗网络的轻量级人脸检测方法
CN110610129A (zh) * 2019-08-05 2019-12-24 华中科技大学 一种基于自注意力机制的深度学习人脸识别系统及方法
WO2020108785A1 (en) * 2018-11-29 2020-06-04 Cellmatiq Gmbh Method and device for training a neural network to specify landmarks on 2d and 3d images
CN111242078A (zh) * 2020-01-20 2020-06-05 重庆邮电大学 一种基于自注意力机制的人脸正脸化生成方法
CN111310705A (zh) * 2020-02-28 2020-06-19 深圳壹账通智能科技有限公司 图像识别方法、装置、计算机设备及存储介质
CN111325161A (zh) * 2020-02-25 2020-06-23 四川翼飞视科技有限公司 一种基于注意力机制的人脸检测神经网络的构建方法
CN111444913A (zh) * 2020-03-22 2020-07-24 华南理工大学 一种基于边缘引导稀疏注意力机制的车牌实时检测方法
CN111639594A (zh) * 2020-05-29 2020-09-08 苏州遐迩信息技术有限公司 图像描述模型的训练方法及装置
CN111721535A (zh) * 2020-06-23 2020-09-29 中国人民解放军战略支援部队航天工程大学 一种基于卷积多头自注意力机制的轴承故障检测方法
CN112016454A (zh) * 2020-08-27 2020-12-01 云南翼飞视科技有限公司 一种人脸对齐的检测方法
CN112418095A (zh) * 2020-11-24 2021-02-26 华中师范大学 一种结合注意力机制的面部表情识别方法及系统
CN112418074A (zh) * 2020-11-20 2021-02-26 重庆邮电大学 一种基于自注意力的耦合姿态人脸识别方法
CN112507996A (zh) * 2021-02-05 2021-03-16 成都东方天呈智能科技有限公司 一种主样本注意力机制的人脸检测方法

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020108785A1 (en) * 2018-11-29 2020-06-04 Cellmatiq Gmbh Method and device for training a neural network to specify landmarks on 2d and 3d images
CN110111365A (zh) * 2019-05-06 2019-08-09 深圳大学 基于深度学习的训练方法和装置以及目标跟踪方法和装置
CN110610129A (zh) * 2019-08-05 2019-12-24 华中科技大学 一种基于自注意力机制的深度学习人脸识别系统及方法
CN110458133A (zh) * 2019-08-19 2019-11-15 电子科技大学 基于生成式对抗网络的轻量级人脸检测方法
CN111242078A (zh) * 2020-01-20 2020-06-05 重庆邮电大学 一种基于自注意力机制的人脸正脸化生成方法
CN111325161A (zh) * 2020-02-25 2020-06-23 四川翼飞视科技有限公司 一种基于注意力机制的人脸检测神经网络的构建方法
CN111310705A (zh) * 2020-02-28 2020-06-19 深圳壹账通智能科技有限公司 图像识别方法、装置、计算机设备及存储介质
CN111444913A (zh) * 2020-03-22 2020-07-24 华南理工大学 一种基于边缘引导稀疏注意力机制的车牌实时检测方法
CN111639594A (zh) * 2020-05-29 2020-09-08 苏州遐迩信息技术有限公司 图像描述模型的训练方法及装置
CN111721535A (zh) * 2020-06-23 2020-09-29 中国人民解放军战略支援部队航天工程大学 一种基于卷积多头自注意力机制的轴承故障检测方法
CN112016454A (zh) * 2020-08-27 2020-12-01 云南翼飞视科技有限公司 一种人脸对齐的检测方法
CN112418074A (zh) * 2020-11-20 2021-02-26 重庆邮电大学 一种基于自注意力的耦合姿态人脸识别方法
CN112418095A (zh) * 2020-11-24 2021-02-26 华中师范大学 一种结合注意力机制的面部表情识别方法及系统
CN112507996A (zh) * 2021-02-05 2021-03-16 成都东方天呈智能科技有限公司 一种主样本注意力机制的人脸检测方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
HAO LIU等: "《Two-Stream Transformer Networks for Video-Based Face Alignment》", 《IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE》 *
孙亮: "《基于深度学习的视频内容描述研究》", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
桑高丽 等: "《基于级联形状回归的多视角人脸特征点定位》", 《浙江大学学报(工学版)》 *
邬继阳: "《基于深度学习的人脸识别技术研究》", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113243886A (zh) * 2021-06-11 2021-08-13 四川翼飞视科技有限公司 一种基于深度学习的视力检测系统、方法和存储介质
CN114360032A (zh) * 2022-03-17 2022-04-15 北京启醒科技有限公司 一种多态不变性人脸识别方法及系统
CN114360032B (zh) * 2022-03-17 2022-07-12 北京启醒科技有限公司 一种多态不变性人脸识别方法及系统

Also Published As

Publication number Publication date
CN112801069B (zh) 2021-06-29

Similar Documents

Publication Publication Date Title
CN112801069B (zh) 一种人脸关键特征点检测装置、方法和存储介质
CN110069985B (zh) 基于图像的目标点位置检测方法、装置、电子设备
CN111108508B (zh) 脸部情感识别方法、智能装置和计算机可读存储介质
CN114581502A (zh) 基于单目图像的三维人体模型联合重建方法、电子设备及存储介质
CN112329525A (zh) 一种基于时空图卷积神经网络的手势识别方法和装置
CN112766229B (zh) 基于注意力机制的人脸点云图像智能识别系统及方法
CN111680550B (zh) 情感信息识别方法、装置、存储介质及计算机设备
CN111401151B (zh) 一种精确的三维手部姿态估计方法
CN113191243B (zh) 基于相机距离的人手三维姿态估计模型建立方法及其应用
CN114170410A (zh) 基于PointNet的图卷积与KNN搜索的点云零件级分割方法
CN110245621A (zh) 人脸识别装置及图像处理方法、特征提取模型、存储介质
CN111709268A (zh) 一种深度图像中的基于人手结构指导的人手姿态估计方法和装置
CN108229432A (zh) 人脸标定方法及装置
CN113935435A (zh) 基于时空特征融合的多模态情感识别方法
CN114550305B (zh) 一种基于Transformer的人体姿态估计方法及系统
Choi et al. Combining deep convolutional neural networks with stochastic ensemble weight optimization for facial expression recognition in the wild
CN114492634A (zh) 一种细粒度装备图片分类识别方法及系统
CN116311472B (zh) 基于多层次图卷积网络的微表情识别方法及装置
Zhu et al. Classroom roll-call system based on ResNet networks
CN113298052B (zh) 一种基于高斯注意力的人脸检测装置、方法和存储介质
CN115908497A (zh) 一种基于人体拓扑感知网络的三维人体姿态估计方法及系统
CN115862095A (zh) 一种自适应视线估计方法、系统、电子设备及存储介质
CN115908697A (zh) 基于点云概率分布学习的生成模型及其方法
CN110826726B (zh) 目标处理方法、目标处理装置、目标处理设备及介质
CN113887536A (zh) 一种基于高层语义引导的多阶段高效人群密度估计方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant