CN108921106B

CN108921106B - 一种基于capsule的人脸识别方法

Info

Publication number: CN108921106B
Application number: CN201810734121.7A
Authority: CN
Inventors: 薛方正; 古俊波; 刘阳阳; 罗胜元; 雷宏伟
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2018-07-06
Filing date: 2018-07-06
Publication date: 2021-07-06
Anticipated expiration: 2038-07-06
Also published as: CN108921106A

Abstract

本发明涉及一种基于capsule的人脸识别方法，采用VGG网络+capsule网络训练网络模型得到优化后的网络模型，将多个人脸图像输入优化后的网络模型得到多个向量值，所有向量值构成人脸查询数据库；最后设置阈值，将未知人脸图像输入优化后的网络模型中得到待识别向量值，将该待识别向量值与所有已知向量值求欧氏距离，选出绝对值最小的距离作为最小距离，并将该最小距离与阈值进行比较：如果最小距离大于阈值，那么表示该未知人脸图像不在人脸查询数据库中；否则与待识别向量值求欧氏距离得到最小距离小的那个已知向量值所对应的人脸图像与未知人脸图像为同一人。该方法在有干扰情况下具有较高的识别精度。

Description

一种基于capsule的人脸识别方法

技术领域

本发明涉及计算机技术领域，尤其涉及机器视觉、深度学习技术领域，具体涉及一种基于capsule的人脸识别方法。

背景技术

随着时代的发展，人脸识别技术被广泛的应用于我们生活的方方面面，比如：服务机器人、安防领域、以及现在很火的利用人脸识别技术解锁我们的手机。虽然人脸识别技术已经被广泛的应用，但其并不是一项完全成熟的技术，在光照、背景、以及使用者表情的干扰下，现在的人脸识别技术并不能很好的工作，识别准确性低。

发明内容

针对现有技术存在预测准确率低的技术问题，本发明的目的是提供一种基于capsule的人脸识别方法，该识别方法的识别准确率高。

为实现上述目的，本发明采用如下技术方案：一种基于capsule的人脸识别方法，包括如下步骤：

S1：训练网络模型：

获取人脸图像数据集，将人脸图像数据集中的人脸图像依次输入VGG网络进行处理，并对应的输出的特征图集；

再将得到的所有特征图对应的转化为一维向量作为capsule网络的输入，并建立损失函数，根据损失函数的值更新VGG网络和capsule网络参数，经过多次迭代，多次更新VGG网络和capsule网络参数，最后得到优化后的网络模型；

S2：建立人脸查询数据库：将需要识别的人的图片输入优化后的网络模型得到他们对应的编码，将这些编码记为已知编码，将所有已知编码保存下来构成人脸查询数据库；

S3：未知人脸图像识别：设置阈值，并将未知人脸图像输入优化后的网络模型中，得到未知人脸图像对应的编码，记为待识别编码，将该待识别编码与所有已知人脸查询数据库中的已知编码求欧式距离，选出值最小的距离作为最小距离，并将该最小距离与阈值进行比较：

如果最小距离大于阈值，那么表示该未知人脸图像不在人脸查询数据库中；

如果最小距离小于或等于阈值，那么与待识别编码求欧氏距离得到最小距离小的那个已知编码为目标编码，所述目标编码对应的人脸图像与未知人脸图像为同一人。

作为改进，所述S1a中的VGG网为VGG16网络。

作为改进，所述1训练网络模型的训练方法为：将所述人脸图像数据集的人脸图像分为K组，每组由三张人脸图像组成，所述三张人脸图像分别为同一个人的两张不同人脸图像和一张不同人的人脸图像；

所述训练网络模型由第一子网络、第二子网络和第三子网络三个完全相同的子网络组成，每次迭代训练时，将一组人脸图像中的三张人脸图像分别输入第一子网络、第二子网络和第三子网络三条子网络中，所述每条子网络输出一个编码；

将得到的三个编码输入损失函数，根据损失函数的值分别更新第一子网络中的VGG网络参数和capsule网络参数、第二子网络中的VGG网络参数和capsule网络参数以及第三子网络中的VGG网络参数和capsule网络参数,所述三个网络的更新幅度一样，更新之后第一子网络、第二子网络和第三子网络的参数保持一致，经过多轮迭代得到优化后的第一子网络、优化后的第二子网络和优化后的第三子网络，优化后的第一子网络或优化后的第二子网络或优化后的第三子网络为优化后的训练网络模型。

作为改进，所述S1训练网络模型的步骤具体如下：

1)记第f组人脸图像为：(a_f,p_f,n_f),f＝1,2,...K，其中a_f和p_f分别表示第f组同一个人的两张不同人脸图像，n_f表示第f组一张不同人的人脸图像；

预设迭代更新次数为Q；

2)令q＝1，f取一个随机值，介于1-K之间；

3)将第f组人脸图像a_f输入第一子网络中的VGG网络进行处理，得到特征图a′_f，再将所述特征图记a′_f转化为一维向量a′_f,i,i＝1,2...49；

将第f组人脸图像p_f输入第一子网络中的VGG网络进行处理，得到特征图p′_f，再将所述特征图记p′_f转化为一维向量p′_f,i,i＝1,2...49；

将第f组人脸图像n_f输入第一子网络中的VGG网络进行处理，得到特征图n′_f再将所述特征图记n′_f转化为一维向量n′_f,i,i＝1,2...49；

4)令第一子网络中capsule网络的u_i＝a'_f,i，输出v^[2]标记为v^[2] _a|i；

令第二子网络中capsule网络的u_i＝p'_f,i，输出v^[2]标记为v^[2] _p|i；

令第三条网络中capsule网络的u_i＝n'_f,i，输出v^[2]标记为v^[2] _n|i；

5)

其中，w^[1] _j为输入层到隐藏层的变换矩阵，j表示隐藏层神经元的个数，

表示u_i通过变换矩阵之后的状态；

6)

其中，c^[1] _ij表示变换层的加权系数，s^[1] _j表示对

加权求和后的形成的新特征；

7)

其中，v^[1] _j表示隐藏层神经元的状态；

8)

其中，w^[2] _t表示隐藏层到输出层的变换矩阵，

表示v^[1] _j经过变换矩阵之后的状态，t为输出神经元的个数即1；

9)

其中，s^[2] _j表示对

进行加权求和之后形成的更高级的特征，c^[2] _jt为示隐藏层到输出层的加权系数，t的取值为1；

10)

其中，v^[2]表示输出神经元的状态，输出并标记保存；

11)设损失函数为：

其中，α为经验值；

12)根据损失函数的值，利用梯度下降算法更新VGG16网络中的参数和capsule网络中的w^[1] _j及w^[2] _t，采用动态路由算法更新capsule网络中c^[1] _ij和c^[2] _jt；

13)如果q≤Q，则令q＝q+1，f再取一个介于1-K的随机值，并返回步骤3)，否则执行下一步；

14)保存VGG16网络中的参数和capsule网络中的参数，得到优化后的网络模型。

作为改进，所述α的值为0.2。

相对于现有技术，本发明至少具有如下优点：

本发明应用现在最新的capsule网络，将其与当下流行的VGG16网络架构相结合，既能够很好的提取出图片的特征，也能够对于这些特征的变形、旋转、光照等干扰也具有很好的鲁棒性，在人脸识别上比现有技术效果更好。

具体实施方式

下面对本发明作进一步详细说明。

一种基于capsule的人脸识别方法，包括如下步骤：

S1：训练网络模型：

将得到所有特征图一一对应地转化为一维向量，每一张特征图对应的转化为49个长度为512的一维向量，将特征图集中的所有特征图全部对应的转化；

再将得到所有特征图对应的转化为一维向量作为capsule网络的输入，并建立损失函数，根据损失函数的值更新VGG网络和capsule网络参数，经过多次迭代，多次更新VGG网络和capsule网络参数，最后得到优化后的网络模型；经过capsule网络的计算，最终将一副人脸图像编码为一个向量。

实施时，将所述人脸图像数据集的人脸图像分为K组，每组由三张人脸图像组成，所述三张人脸图像分别为同一个人的两张不同人脸图像和一张不同人的人脸图像；即每组人脸图像中包括两个不同人的三张人脸图像；

所述训练网络模型由第一子网络、第二子网络和第三子网络三个完全相同的子网络组成，每次迭代训练时，将一组人脸图像中的三张人脸图像分别输入第一子网络、第二子网络和第三子网络三条子网络中，即一条自网络输入一张人脸图像，所述每条子网络输出一个编码；

将得到的三个编码输入损失函数，根据损失函数的值分别更新第一子网络中的VGG网络参数和capsule网络参数、第二子网络中的VGG网络参数和capsule网络参数以及第三子网络中的VGG网络参数和capsule网络参数，所述三个网络的更新幅度一样，更新之后第一子网络、第二子网络和第三子网络的参数保持一致，经过多轮迭代得到优化后的第一子网络、优化后的第二子网络和优化后的第三子网络，优化后的第一子网络或优化后的第二子网络或优化后的第三子网络为优化后的训练网络模型。

训练网络模型的步骤具体如下：

预设迭代更新次数为Q；

2)令q＝1，f取一个随机值，介于1-K之间；

5)

表示u_i通过变换矩阵之后的状态，变换矩阵可以看做是从不同的角度看特征(u_i),从而得到新的特征；

6)

其中，c^[1] _ij表示变换层的加权系数，用于对得到的新的特征

进行加权，用于评价新特征的重要程度，s^[1] _j表示对

加权求和后的形成的新特征；

7)

其中，该步骤主要是为了对向量s^[1] _j进行压缩，使其的模长在0-1范围内，我们通过评价v^[1] _j的模长的大小来评价特征的显著程度，若特征越显著，其模长越长，v^[1] _j表示隐藏层神经元的状态；

8)

其中，w^[2] _t表示隐藏层到输出层的变换矩阵，表示从不同的角度看特征v^[1] _j，进而得到新的特征

9)

其中，s^[2] _j表示对

进行加权求和之后形成的更高级的特征，c^[2] _jt为示隐藏层到输出层的加权系数，用于评价各个特征

的重要程度，t的取值为1；

10)

其中，v^[2]表示输出神经元的状态，输出并标记保存；该步骤用于对s^[2] _t进行压缩，使其的模长在0-1之间，为了便于后面的计算，也即是将一副人脸的照片编码为一个向量；

11)设损失函数为：

其中，α为经验值，损失函数的具体意义就是使两张同一个人的照片经过网络后的输出他们的距离小于不同的人经过网络后的输出的距离，α用于衡量他们的距离差距，这里我们取α为0.2；

12)根据损失函数的值，利用梯度下降算法更新VGG16网络中的参数和capsule网络中的w^[1] _j及w^[2] _t，利用动态路由算法更新capsule网络中c^[1] _ij和c^[2] _jt，VGG16网络中的参数和capsule网络中参数的初始值是随机值；

S2：建立人脸查询数据库：将需要识别的人的图片输入优化后的网络模型得到他们对应的编码，将这些编码记为已知编码，将所有已知编码保存下来构成人脸查询数据库。

S3：未知人脸图像识别：设置阈值，并将未知人脸图像输入优化后的网络模型中，得到未知人脸图像对应的编码，记为待识别编码，将该待识别编码与所有已知人脸查询数据库中的已知编码求欧氏距离，选出绝对值最小的距离作为最小距离，并将该最小距离与阈值进行比较：求欧氏距离是现有技术，为节约篇幅，本发明中不做详述；

本发明利用经典的VGG16网络架构+capsule来实现人脸识别，在光照、背景、表情等干扰下达到的识别精度比当前的方法有了一定的提升。

网络架构：VGG16+capsule

VGG16：输入图像的大小是224*224*3。convN_M表示卷积核大小N*N，输出通道为M。

Capsule层：

我们将VGG16的输出作为capsule层的输入，具体的：VGG16的输出大小为7×7*512，因此我们将其拆分成7*7个1*512的单元，即capsule第一层的输入神经元个数为7*7即49个，每个神经元由1*512的向量组成可以理解为每个capsule神经元有512个属性，capsule第二层即隐藏层的神经元个数为10，第三层即输出层的神经元个数为1。

原理是：

首先将人脸数据集进行分组，分为K组，K的取值根据人脸数据集的大小而定，每一组3张图片，分别为同一个人的两张不同照片和一张不同的人的照片，记(a_i,p_i,n_i)为一组，其中a_i，p_i分别表示同一个人的两张不同照片，n_i表示不同的人的照片，i表示第i组，i＝1,2,3，，，K。

使用3个参数完全相同的上述网络(VGG16+capsule)，分别将(a_i,p_i,n_i)输入进这3个网络，可以得到3个不同的v^[2]，将这3个不同的v^[2]记为(v^[2] _a|i,v^[2] _p|i,v^[2] _n|i)，其中输出(v^[2] _a|i,v^[2] _p|i,v^[2] _n|i)与输入(a_i,p_i,n_i)一一对应，即a_i的输出为v^[2] _a|i，p_i的输出为v^[2] _p|i，n_i的输出为v^[2] _n|i。

然后根据损失函数的值利用梯度下降算法来优化网络的参数(除c^[1] _ij、c^[2] _jt外)，c^[1] _ij、c^[2] _jt采用动态路由算法(成熟的算法)来进行更新。

具体的损失函数为

该损失函数的具体意义就是使两张同一个人的照片经过网络后的输出他们的距离小于不同的人经过网络后的输出的距离，α用于衡量他们的距离差距，这里我们取α为0.2。

训练完成后，我们只需要取这3个参数完全相同的网络中的一个作为我们的人脸识别网络，具体实施步骤：将需要识别的人的照片通过人脸识别网络可以得到一个输出，即为这个人的编码(即向量值)，将许多不同的人的照片依次输入进人脸识别网络即可得到这些人的编码，将这些编码存入数据库，并设定一个阈值，用于评价是否是同一个人。在进行实时的人脸识别应用时，只需要通过摄像头将采集到的图片输入进人脸识别网络，进而得到一个编码，然后将这个编码与数据库的编码进行距离比较，得到一个与其最相近的编码，若采集到的图片的编码与其最近的数据库中的编码的距离小于我们设定的阈值，则判定这个人就是数据库中的这个编码对应的人；否则就判定无法识别这个人的身份。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。