CN109726633B

CN109726633B - 一种基于查找表激活函数的人脸关键点检测方法

Info

Publication number: CN109726633B
Application number: CN201811409987.7A
Authority: CN
Inventors: 黄亮; 徐滢
Original assignee: Chengdu Pinguo Technology Co Ltd
Current assignee: Chengdu Pinguo Technology Co Ltd
Priority date: 2018-11-23
Filing date: 2018-11-23
Publication date: 2021-06-18
Anticipated expiration: 2038-11-23
Also published as: CN109726633A

Abstract

本发明公开一种基于查找表激活函数的人脸关键点检测方法，属于图像检测技术领域，具体提出一种基于查找表的激活函数实现方法，并且将其应用在人脸关键点检测中，能大大提高网络的非线性表达能力，提高人脸关键点检测的精度，并且计算量小；使用全卷积网络重新确定的人脸区域，能够有效地降低人脸关键点检测对原始人脸框的依赖，无论实际人脸位于原始人脸框的哪个角落，本文算法均能准确地检测到人脸关键点的坐标；网络训练引入LUT查找表激活函数，拟合复杂的映射函数，增加神经网络的非线性表达能力；LUT查找表激活函数计算简单，运算速度快。

Description

一种基于查找表激活函数的人脸关键点检测方法

技术领域

本发明涉及图像检测技术领域，特别是涉及一种基于查找表激活函数的人脸关键点检测方法。

背景技术

人脸关键点检测也称为人脸关键点检测、定位或者人脸对齐，是指给定人脸图像，定位出人脸面部的关键区域位置，包括眉毛、眼睛、鼻子、嘴巴、脸部轮廓等。人脸关键点检测方法大致分为三种，分别是基ASM(Active Shape Model)和AAM(Active AppearnceModel)的传统方法，基于级联形状回归的方法以及基于深度学习的方法。

深度学习近年发展迅猛，以神经网络为代表，解决了诸多领域以前难以解决的问题。目前形成的基本共识是在神经网络每层的结尾加上激活函数来提高神经网络的非线性表达能力，常用的激活函数为relu，以及一些变种包括prelu、leaky_relu等，这些激活函数能一定程度上增加网络非线性，但是形式过于固定，不够灵活。

在人脸关键点检测中，目前使用的神经网络的非线性表达能力差，导致人脸关键点检测的精度低，计算量高。

发明内容

为了解决上述问题，本发明提供一种基于查找表激活函数的人脸关键点检测方法，提出一种基于查找表的激活函数实现方法，并且将其应用在人脸关键点检测中，能大大提高网络的非线性表达能力，提高人脸关键点检测的精度，并且计算量小。

为此，本发明采用的技术方案是：

提供一种基于查找表激活函数的人脸关键点检测方法，该方法包括以下步骤：

S1、获取包含人脸的rgb图像，并获取所述rgb图像中矩形人脸框，得到带人脸框的rgb图像；

S2、将带人脸框的rgb图像转换为灰度图像；

S3、将步骤S2中的所述人脸框转换为第一正方形框；

S4、根据所述第一正方形框对所述灰度图像进行剪裁，得到第一剪裁图像；将所述第一剪裁图像缩放到64x64，得到第一人脸图像；

S5、将所述第一人脸图像输入预设的基于查找表激活函数的第一网络，输出得到人脸各部位的mask图；

S6、将人脸各部位的mask图二值化，得到二值化图像；

S7、获取人脸各部位的中心坐标；

S8、根据人脸各部位的中心坐标确定第二正方形框；

S9、根据所述第二正方形框对所述灰度图像进行剪裁，得到第二剪裁图像；将所述第二剪裁图像缩放到64x64，得到第二人脸图像；

S10、将所述第二人脸图像输入预设的基于查找表激活函数的第二网络，输出得到坐标值；

S11、将步骤S10得到的所述坐标值映射到所述灰度图像中，得到最终的人脸关键点。

进一步的是，步骤S5中，所述第一网络为基于查找表激活函数的全卷积网络。

进一步的是，步骤S9中，所述第二网络为基于查找表激活函数的CNN+FC网络。

进一步的是，所述查找表激活函数的定义如下：

其中，

w_j为第一网络或第二网络中训练得到的参数，其构成长度为2n+1的一维向量W＝{w_-n,w_-n+1,...,w₀,...,w_n-1,w_n}，x表示查找表激活函数输入，y表示查找表激活函数输出，n为大于1的整数，n的值根据情况设置(通过观察卷积层和全连接层输出的数值分布进行行设置)，n越大，查找表越大，相应的精度越高。

查找表激活函数初始化按照y＝x进行。

进一步的是，所述查找表激活函数出现在卷积层或全连接层之后。

进一步的是，由于经过训练的神经网络的数值范围可能变小(比如集中在-1到1之间)，因此，在此情况下，对查找表激活函数的输入数值进行放大2-3倍。

进一步的是，所述人脸各部位包括左眼、右眼和嘴唇。

进一步的是，步骤S3中，所述转换的方法为：

其中，FR₂为第一正方形框的四元组，x₁为所述人脸框左上角的横坐标，y₁为所述人脸框左上角的纵坐标，W₁为所述人脸框的长度，H₁为所述人脸框的宽度。

进一步的是，获取左眼、右眼或嘴唇的中心坐标的方法包括：

S71、获取所述二值化图像的有效区域中所有像素点坐标；

S72、计算所有像素点坐标的平均值，得到第一平均值；

S73、计算每个像素点到所述第一平均值的距离，并将所述像素点按所述距离的大小升序排列，得到升序排列后的像素点；

S74、计算所述升序排列后的像素点的前50％的像素点坐标的平均值，得到所述第一中心坐标；

S75、计算所述第一中心坐标在所述灰度图像中的坐标，获得左眼、右眼或嘴唇的中心坐标，所述左眼、右眼或嘴唇的中心坐标的获得方法为：

P＝q_m2*Ratio₁+FR₂(0，1)

其中，P为左眼、右眼或嘴唇的中心坐标，q_m2为步骤S74得到的第一中心坐标，Ratio₁为步骤S4中第一比例，FR₂(0,1)为所述第一正方形框的左上角的横纵坐标。

进一步的是，步骤S11的映射方法为：

其中，Landmark表示最终的人脸关键点，Landmark₁表示步骤S10得到的坐标值，Ratio₂表示步骤S9中缩放比例，b₀(0)表示点b₀的x坐标，b₀(1)表示点b₀的y坐标。

本发明方法的理论原理如下：

图像中人脸关键点检测的精度要求使其对非线性表达能力的要求较高，现有技术以具有较强非线性表达能力神经网络来满足上述要求，激活函数是加强神经网络非线性表达能力的重要部分，查找表的激活方式，本质上是分段线性函数，每段线性函数之间的值通过线性插值获取激活值，相比常用的relu等激活函数拥有更强的非线性，将其运用到神经网络中，使计算简单快速，并不增加原有网络的计算负担，且提高人脸关键点检测的精度。

采用本技术方案的有益效果：

与现有技术相比，本发明使用的全卷积网络具有非常好的平移不变性，能够比较准确地找到眼睛和嘴唇区域；使用全卷积网络重新确定的人脸区域，能够有效地降低人脸关键点检测对原始人脸框的依赖，实验证明，无论实际人脸位于原始人脸框的哪个角落，本文算法均能准确地检测到人脸关键点的坐标；同时，所使用的神经网络训练时引入LUT查找表激活函数，拟合复杂的映射函数，增加神经网络的非线性表达能力，提高人脸关键点检测的精度，计算简单，运算速度快。

附图说明

图1是本发明方法的流程图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明作进一步阐述。

在本实施例中，如图1所示，一种基于查找表激活函数的人脸关键点检测方法，该方法包括以下步骤：

S1、获取包含人脸的rgb图像，并获取所述rgb图像中矩形人脸框FR₁，得到带人脸框的rgb图像；

FR₁可以进一步表示为(x₁,y₁,W₁,H₁)四元组，其中x₁,y₁代表矩形框左上角的横纵坐标，W₁,H₁代表矩形框的长和宽，本实施例中以FR₁(0)表示访问四元组的第一个元素，即x₁，FR₁(0，1)表示x₁,y₁，其它类推。

S2、将带人脸框的rgb图像I_rgb转换为灰度图像I_gray；

S3、将步骤S2中的所述人脸框转换为第一正方形框FR₂；

S4、根据所述第一正方形框FR₂对所述灰度图像I_gray进行剪裁，得到第一剪裁图像；将所述第一剪裁图像进行缩放，得到第一人脸图像I_roi1(64x64)；令缩放比例为Ratio₁。

S5、将所述第一人脸图像I_roi1输入预设的基于查找表激活函数的第一网络Net₁，得到人脸各部位的mask图M₀,M₁,M₂，具体指左眼、右眼和嘴唇；

S6、将M₀,M₁,M₂二值化，得到二值化图像MBIN₀,MBIN₁,MBIN₂,，白色表示有效区域，黑色表示无效区域；

S7、获取人脸各部位的中心坐标左眼P₀＝(x₀,y₀),右眼P₁＝(x₁,y₁),嘴唇P₂＝(x₂,y₂)；

以P₀为例，其计算方式为：设二值化图MBIN₀的白色区域内像素点坐标为q_k，k＝0,1,2,…,N-1,N,表示白色像素点个数；

a.取MBIN₀内白色区域像素点坐标的均值q_m1；

b.计算q_k到q_m1的距离D_k；

c.将q_k按D_k大小对应进行升序排列，计算排序前50％的像素点坐标的均值q_m2，q_m2即为P₀的中心坐标；

d.计算所述中心坐标在I_gray中的坐标，公式为P₀＝qm2*Ratio₁+FR₂(0，1)；P₁和P₂的中心坐标点的计算方式类推可得。

S8、根据人脸各部位的中心坐标确定第二正方形框；

a1.计算点P₂到直线P₀P₁的距离d₂；

b1.计算中点坐标

其中

|P₀P₁|代表P₀到P₁的距离；

c1.令r₁＝1.4max(|P₀P₁|,d₂),r₂＝1.8max(|P₀P₁|,d₂),r₃＝2.2max(|P₀P₁|,d₂)，

b₀b₁b₂b₃所确定的正方形即是第二正方形框。

S9、根据所述第二正方形框对所述灰度图像进行剪裁，得到第二剪裁图像；将所述第二剪裁图像进行缩放，得到第二人脸图像I_roi2；

具体的，裁剪b₀b₁b₂b₃区域的图像，并缩放到固定大小(64x64)，记缩放比例为Ratio₂，缩放后的图像作为精确的人脸图像区域I_roi2，同时计算b₀b₁b₂b₃区域相对于I_gray的旋转角度θ，即

与x正方向的夹角(逆时针)；本文所涉及到的坐标均是以图像左上角为原点，图像右边为x正方向，图像下边为y正方向；

S10、将所述第二人脸图像I_roi2输入预设的基于查找表激活函数的第二网络Net₂，得到坐标值Landmark₁；

其中Landmark₁为3×M的矩阵(每一列代表一个点的坐标以及一个常数1)，M为正整数，本实施例取68；

S11、将Landmark₁所述坐标值映射到所述灰度图像I_gray中，得到最终的人脸关键点。映射方法为：

本实施例中，第一网络Net₁为基于查找表激活函数全卷积网络，具体的：

Net₁：该网络主要完成semantic segment任务，输入为单通道灰度图，输出为4通道分类结果，4个通道分别代表背景、左眼区域、右眼区域、嘴唇区域(后三个结果分别对应M₀,M₁,M₂)，网络采用全卷积网络，配合softmax crossentropy分类器。网络的使用查找表(LUT)激活函数的使用，表1的结构是本实施例使用的一个全卷积网络的例子。

表1本实施例中全卷积网络结构

Net₂:在本实施例中，该网络输入为单通道灰度图，输出为人脸关键点坐标，该网络为典型的CNN+FC的结构，使用了查找表(LUT)激活函数，表2的结构是本实施例使用的一个全卷积网络的例子。

表2本实施例中CNN+FC网络结构

BLK(1,20,5×5,1)
	MaxPooling(2×2,2)
BLK(20,48,5×5,1)
	MaxPooling(2×2,2)
BLK(48,64,3×3,1)
	MaxPooling(2×2,2)
BLK(64,64,3×5,1)
	FC(1024,256)
LUT
	FC(256,136)

在表1和表2中：

BLK(in,out,k×k,s)：输入为in通道，输出为out通道，k×k的kernel，stride为s的卷积层+LUT；

MaxPooling(k×k,s)：k×k的kernel，stride为s的最大池化；

FC(in,out):输入为in个节点，输出为out个节点的全连接层；

UnPooling(k×k,s):k×k的kernel，stride为s的反池化，本文中的UnPooling(2x2,2)相当于将feature map逐个放大2倍；

LUT：查找表激活层；

Softmax：softmax激活函数；

Element-Wise Add：逐元素加法；

本实施例使用的LUT激活函数出现在卷积层以及FC层之后，卷积层的输出特征图的维度为B×C×H×W，FC层的输出特征图的维度为B×C，B代表batch size，C代表通道数，H代表卷积层的输出特征图高度，W代表卷积层的输出特征图宽度。本实施例提出的LUT激活层根据通道数设置为C个查找表。

所述查找表激活函数的定义如下：

其中，

w_j为第一网络或第二网络中训练得到的参数，其构成长度为21(n＝10)的一维向量W＝{w_-n,w_-n+1,...,w₀,...,w_n-1,w_n}，x表示查找表激活函数输入，y表示查找表激活函数输出，j＝-10,-9,-8...9。

查找表激活函数初始化按照y＝x进行。

对查找表激活函数的输入数值进行放大3倍。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种基于查找表激活函数的人脸关键点检测方法，其特征在于，包括以下步骤：

S2、将带人脸框的rgb图像转换为灰度图像；

S3、将步骤S2中的所述人脸框转换为第一正方形框；

S6、将人脸各部位的mask图二值化，得到二值化图像；

S7、获取人脸各部位的中心坐标；

S8、根据人脸各部位的中心坐标确定第二正方形框；

S11、将步骤S10得到的所述坐标值映射到所述灰度图像中，得到最终的人脸关键点；

所述查找表激活函数的定义如下：

其中，

w_j为第一网络或第二网络中训练得到的参数，其构成长度为2n+1的一维向量W＝{w_-n，w_{_n+1}，...，w₀，...，w_n-1，w_n}，x表示查找表激活函数输入，y表示查找表激活函数输出，n为大于1的整数。

2.根据权利要求1所述的人脸关键点检测方法，其特征在于，步骤S5中，所述第一网络为基于查找表激活函数的全卷积网络。

3.根据权利要求1所述的人脸关键点检测方法，其特征在于，步骤S9中，所述第二网络为基于查找表激活函数的CNN+FC网络。

4.根据权利要求3所述的人脸关键点检测方法，其特征在于，所述查找表激活函数出现在卷积层和全连接层之后。

5.根据权利要求4所述的人脸关键点检测方法，其特征在于，对查找表激活函数的输入数值进放大2-3倍。

6.根据权利要求1所述的人脸关键点检测方法，其特征在于，所述人脸各部位包括左眼、右眼和嘴唇。

7.根据权利要求1所述的人脸关键点检测方法，其特征在于，步骤S3中，所述转换的方法为：

8.根据权利要求6所述的人脸关键点检测方法，其特征在于，获取左眼、右眼或嘴唇的中心坐标的方法包括：

S71、获取所述二值化图像的有效区域中所有像素点坐标；

S72、计算所有像素点坐标的平均值，得到第一平均值；

S74、计算所述升序排列后的像素点的前50％的像素点坐标的平均值，得到第一中心坐标；

P＝q_m2*Ratio₁+FR₂(0，1)

其中，P为左眼、右眼或嘴唇的中心坐标，q_m2为步骤S74得到的第一中心坐标，Ratio₁为步骤S4中缩放比例，FR₂(0，1)为所述第一正方形框的左上角的横纵坐标。

9.根据权利要求1所述的人脸关键点检测方法，其特征在于，步骤S11的映射方法为：

其中，Landmark表示最终的人脸关键点，Landmark₁表示步骤S10得到的坐标值，Ratio₂表示步骤S9中缩放比例，b₀(0)表示点b₀的x坐标，b₀(1)表示点b₀的y坐标，θ表示第二剪裁图像区域相对于灰度图像的旋转角度。