CN112070019A

CN112070019A - 一种人脸识别方法、装置、电子设备和存储介质

Info

Publication number: CN112070019A
Application number: CN202010936828.3A
Authority: CN
Inventors: 桑高丽; 其他发明人请求不公开姓名
Original assignee: Henan Weihu Intelligent Technology Co ltd
Current assignee: Henan Weihu Intelligent Technology Co ltd
Priority date: 2020-09-08
Filing date: 2020-09-08
Publication date: 2020-12-11
Anticipated expiration: 2040-09-08
Also published as: CN112070019B

Abstract

本发明涉及人脸识别技术领域，具体涉及一种人脸识别方法、装置、电子设备和存储介质，该人脸识别方法采用深度学习网络模型识别样本图像中的人脸信息，其特征在于，该识别方法包括以下步骤：分别为多个通道组构建对应的概率分布张量，所述多个通道组是按照预设的组数在通道维度上分割得到的，每个通道组的权重不同；选择最大通道组所对应的卷积核，自适应地调节不同所述样本图像上提取的特征信息；其中，所述最大通道组为所构建的每个所述概率分布张量中响应最高的通道组；根据所述卷积核对每个所述通道组进行卷积得到卷积特征，将所得到的多个所述卷积特征进行拼接。本发明实施例提升网络模型的特征表达能力，而且不会增加整个网络结构的复杂度。

Description

一种人脸识别方法、装置、电子设备和存储介质

技术领域

本发明涉及人脸识别技术领域，具体涉及一种人脸识别方法、装置、电子设备和存储介质。

背景技术

人脸识别技术是计算机视觉领域的重要研究方向之一，主要通过分析对比人脸特征达到识别身份的目的。因其人脸特征可以通过非接触的方式进行采集，具有简单、便捷等优势，这些优势让人脸识别技术在众多生物识别技术中脱颖而出，落地产品市场占比大，广泛应用在安全、经济等领域里。

2012年AlexNet网络模型被提出，展示了深度神经网络在图像分类方向上惊人的精度优势，让国内外研究者看到了新的方向，不断提出了各种深度神经网络的变种，并应用到人脸识别技术上，使人脸识别技术开始迅猛发展。

基于深度学习的人脸识别方法在精度和速度方面都有非常大的优势，具有良好的泛化性和鲁棒性，能应用于不同场景中，改进方式主要分为优化网络结构和优化损失函数两方面。网络结构被国内外学者不断地重构优化，里程碑的网络模型有VGGNet、DeepFace、GoogleNet、VGGFace、SphereFace、 SENet等，利用网络模型提高特征的表达能力，可以大大地增加模型的泛化性。其次，就是优化损失函数方面，最开始人脸识别算法都是使用Softmax损失函数指导模型训练，但是研究者们发现Softmax损失函数存在许多不足，不能减小类内距离和增大类间距离，随后出现Triplet Loss、L-Softmax、Center Loss、A-Softmax、AM-Softmax等变种损失函数，通过增加损失函数的判别性，提高网络模型的识别能力，使类内特征分布紧凑，类间特征分布疏远。

目前，基于深度学习的人脸识别算法的网络结构中都采用卷积层提高特征信息的表达能力，这是由于不同的卷积核能提取到不同层次的抽象信息。但是卷积操作在网络结构中是参数共享的，如果想在不同样本上获取到更丰富的特征信息，需增加卷积层的数量，这样不仅增加参数计算量，并且难以优化网络模型。

发明内容

为了解决上述技术问题，本发明的目的在于提供一种人脸识别方法、装置、电子设备和存储介质，所采用的技术方案具体如下：

第一方面，本发明一个实施例提供了一种人脸识别方法，该人脸识别方法采用深度学习网络模型识别样本图像中的人脸信息，其特征在于，该识别方法包括以下步骤：

分别为多个通道组构建对应的概率分布张量，所述多个通道组是按照预设的组数在通道维度上分割得到的，每个通道组的权重不同；

选择最大通道组所对应的卷积核，自适应的调节不同所述样本图像上提取的特征信息；其中，所述最大通道组为所构建的每个所述概率分布张量中响应最高的通道组；

根据所述卷积核对每个所述通道组进行卷积得到卷积特征，将所得到的多个所述卷积特征进行拼接。

第二方面，本发明另一个实施例提供了一种人脸识别装置，该人脸识别装置采用深度学习网络模型识别样本图像中的人脸信息，其特征在于，该识别装置包括：

概率分布张量构建单元，用于分别为多个通道组构建对应的概率分布张量，所述多个通道组是按照预设的组数在通道维度上分割得到的，每个通道组的权重不同；

卷积核选择单元，用于选择最大通道组所对应的卷积核，以调节不同所述样本图像上提取的特征信息；其中，所述最大通道组为所述概率分布张量中响应最高的通道组；以及

特征拼接单元，用于根据所述卷积核对每个所述通道组进行卷积得到卷积特征，并将所得到的多个所述卷积特征进行拼接。

第三方面，本发明另一个实施例提供了一种电子设备，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：执行上述所述的方法。

第四方面，本发明另一个实施例提供了一种存储介质，该存储介质中存储有计算机可读的程序指令，所述程序指令被处理器执行时实现上述所述的方法。

本发明具有如下有益效果：

本发明实施例通过为不同重要程度的通道组构建对应的概率分布张量，并选择概率分布张量中响应最高的通道组对应的卷积核做卷积操作，强化高重要性的通道特征，提升网络模型的特征表达能力，而且不会增加整个网络结构的复杂度。动态激活通道卷积的人脸识别模型通过根据不同的样本自动调节特征信息，加强有效的特征信息，抑制冗余、不重要的特征信息，而且网络结构简单、易搭建，识别精度得到大大提高。

附图说明

图1为本发明一个实施例所提供的整体网络模型的网络结构示意图；

图2为本发明一个实施例所提供的关于残差模块的网络结构示意图；

图3为本发明一个实施例所提供的关于动态激活通道卷积模块的网络结构示意图；

图4为本发明一个实施例所提供的一种人脸识别方法的流程图；

图5为本发明一个实施例所提供的一种人脸识别装置的结构框图；

图6为本发明一个实施例所提供的关于概率分布张量构建单元的结构框图；

图7为本发明一个实施例所提供的关于卷积核选择单元的结构框图；

图8为本发明一个实施例所提供的一种电子设备的结构示意图。

具体实施方式

为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明提出的一种人脸识别方法、装置、电子设备和存储介质，其具体实施方式、结构、特征及其功效，详细说明如下。在下述说明中，“第一”、“第二”、仅用于区分，方便描述，并不代表相关特征的偏重程度或主次之分。不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外，一或多个实施例中的特定特征、结构、或特点可由任何合适形式组合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的属于只是为了描述具体的实施例的目的，不是旨在于限制本发明。本文所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。

下面结合附图具体的说明本发明所提供的一种人脸识别方法、装置、电子设备和存储介质。

目前，主流的卷积层操作提取表达能力强的特征信息，主要通过不同卷积核提取的不同层次的抽象信息。但是因卷积操作是参数共享的，为了在不同的样本上提取到强语义的信息，以增加特征信息的表达能力，需进行多次卷积。该方法会增加参数计算量，加大优化网络结构的难度。

为了克服上述缺陷，本发明实施例通过搭建基于动态激活通道卷积的人脸识别模型，自动为不同重要程度的通道生成对应的卷积核，调节不同样本上提取的特征信息，强化高重要性的通道特征，提升网络模型的特征表达能力，提高人脸的识别精度。

按照数据处理的顺序，以卷积层、批归一化层、激活函数层和残差模块作为一个网络块。

按照数据处理的顺序，该网络结构的主干网络包括依次堆放的网络块，按照预设的网络块的数量搭建主干网络之后，处理后的数据依次经过全连接层、随机失活层、带正则化的全连接层处理之后利用附加间隔柔性最大值损失函数计算预测类别与真实类别之间的损失值。

其中，附加间隔柔性最大值损失函数

其中，N参数表示批处理样本的大小；y_i表示第i个训练样本的预测值；参数s用于缩放余弦值；能提高网络模型训练时的收敛速度，参数m用于调整类间距离；参数c为类别的总数；j为类别的标号。

最后，用优化器优化缩小损失值，调优网络模型的权重参数。

优选的，请参阅图1，其示出了本发明实施例所搭建的完整的网络结构。图中，C表示卷积层，为了方便表述，其中C1表示第一卷积层、C2表示第二卷积层，C3表示第三卷积层，C4表示第四卷积层以此类推。BN表示批正则化层，PR表示参数修正线性单元层，Res_Block表示残差模块，D表示全连接层， DP表示随机失活层，ND表示带正则化的全连接层，AM-Softmax-Loss表示柔性最大值损失函数。具体到本实施例中，批归一化层采用批正则化层，激活函数层采用参数修正线性单元层。

按照数据处理的方向，残差模块包括动态激活通道卷积层、激活函数层、批归一化层和特征相加融合层。

优选的，请参阅图2，图2示出了本实施例所采用的残差模块的网络架构图，图中DECC表示动态激活通道卷积层，PE表示参数修正线性单元，Add表示特征相加融合层。其中，激活函数层采用参数修正线性单元，批归一化层采用批正则化层。

按照数据处理的方向，动态激活通道卷积层包括全局平均池化层、自适应平均池化层、卷积层、激活函数层和批归一化层。该动态激活通道卷积层包括第一分支和第二分支，第一分支主要生成通道维度上的概率分布张量，第二分支主要用于生成卷积核。

主要流程是将特征块在通道维度上分成m组，然后根据第一分支生成概率分布张量中概率最大值对应的通道组选择对应的卷积核，最后分组进行卷积再将特征信息拼接起来，其中m设为4。

具体的，每个通道组对应一个概率分布张量，通道组做卷积的依据是：对应的概率分布张量中响应值最高对应的卷积核，再与对应的通道组做卷积，每个概率分布张量里都有一个响应最高的值。

作为一个示例：标号为1的通道组对应标号为1的概率分布张量，而标号为1的概率分布张量里最高响应值对应的是标号为2的卷积核，所以选出标号为2的卷积核与标号为1的通道组做卷积。

请参阅图3，图3示出了本实施例所采用的动态激活通道卷积层的网络架构图，图中GAP表示全局平均池化层，R表示维度变化层，S表示柔性最大值激活函数层。第一分支依次包括全局平均池化层、卷积层、维度变化层和柔性最大值激活函数层。第二分支包括自适应平均池化层、第一卷积层和第二卷积层。图中虚线部分展示特征块维度变化。

具体的，第一分支首先利用全局平均池化层将维度为H×W×C的特征块每个通道上的空间特征编码成维度为1×1×C的全局特征，然后使用一个卷积核大小为1×1的卷积层升高特征块的维度，变为维度为1×1×(m×O)的特征块，降低特征块的维度变为m×O，最后在m维上使用柔性最大值激活函数映射成概率分布张量，作为选择卷积核的依据。

第二分支首先利用自适应平均池化层将维度为H×W×C的特征块下采样成维度为K×K×C的特征块，然后依次使用两个卷积核大小为1×1的卷积层改变维度，最后将特征块分组，得到m个大小为K×K的卷积核。如图所示，得到的卷积核为w₁、w₂、w₃、w₄。

请参阅图4，基于上述所构建的网络模型，本发明实施例所提供的识别方法包括以下步骤：

步骤S001，分别为多个通道组构建对应的概率分布张量，所述多个通道组是按照预设的组数在通道维度上分割得到的，每个通道组的权重不同。

需要说明的是，对每个通道组构建一个概率分布张量，也即通道组与概率分布张量是一一对应的关系。

步骤S002，选择最大通道组所对应的卷积核，自适应的调节不同所述样本图像上提取的特征信息；其中，所述最大通道组为所构建的每个所述概率分布张量中响应最高的通道组。

步骤S003，根据所述卷积核对每个所述通道组进行卷积得到卷积特征，将所得到的多个所述卷积特征进行拼接。

在引入了动态激活通道卷积层之后，网络模型对人脸识别的性能大大提高。

综上所述，本发明实施例通过为不同重要程度的通道组构建对应的概率分布张量，并选择概率分布张量中响应最高的通道组对应的卷积核做卷积操作，强化高重要性的通道特征，提升网络模型的特征表达能力，而且不会增加整个网络结构的复杂度。动态激活通道卷积的人脸识别模型通过根据不同的样本自动调节特征信息，加强有效的特征信息，抑制冗余、不重要的特征信息，而且网络结构简单、易搭建，识别精度得到大大提高。

在利用该网络模型进行训练和测试的过程中，首先，将需识别的人脸图像输入到网络模型中，输出得到高维度的特征张量，并计算其与人脸数据库中用户人脸特征张量的余弦相似度。然后，将所述余弦相似度大于预设阈值的人脸图像识别为同一人。其中，该网络模型是预先经过训练的网络模型，该网络模型的训练过程包括：首先，对收集到的任意大小的人脸图像进行裁剪对齐等系列预处理操作。然后，将预处理后的人脸图像分为训练集和测试集，并将训练集和测试集转化成固定格式的数据存储方式输入到搭建的人脸识别网络模型中进行训练。最后，利用附加间隔柔性最大值损失函数计算损失值，调节相关超参数，制定优化策略，迭代计算，直至得到最优的人脸识别模型。

具体到本实施例中，该附加间隔柔性最大值损失函数中的超参数s设为 35，主要能控制模型收敛速度；超参数m设为0.4，用来调节类间距离。

具体到本实施例中，该网络模型的主干部分结构是由4个网络块依次堆叠构成的，其中，按照数据流的方向，依次对每个网络块命名为：第一网络块、第二网络块、第三网络块和第四网络块，其中第三个网络块包含两个残差模块，第一个网络块、第二个网络块和第四个网络块分别包含一个残差模块。每个残差块包含2个动态激活通道卷积模块。

优选的，步骤S03中的优化策略可以采用预热余弦下降法衰减学习率，使用随机梯度下降法作为优化器。

优选的，将学习率设为0.01，批处理大小设为256，最后全连接层输入通道数为256，批归一化层的动量参数设为0.975，总迭代次数设为200000。

根据本发明提出的实施步骤在LFW数据集上训练并测试模型，LFW数据集由各种环境下采集的人脸图像数据集构成，主要用来研究人脸识别问题，共有13233张图像，包含5749个人。由实验结果可得，利用本发明提出的人脸识别方法可以对特征块中权重不同的通道生成对应的卷积核，能根据不同的样本自动调节特征信息，加强有效的特征信息，抑制冗余、不重要的特征信息，提升网络模型的特征表达能力，大大地提高人脸识别精度。

第二方面，基于与上述方法实施例相同的发明构思，本发明另一个实施例提供了一种人脸识别装置。

请参阅图5，其示出了一种人脸识别装置的结构框图，该人脸识别装置采用深度学习网络模型识别样本图像中的人脸信息，该识别装置包括概率分布张量构建单元501、卷积核选择单元502和特征拼接单元503。

具体的，概率分布张量构建单元用于分别为多个通道组构建对应的概率分布张量，多个通道组是按照预设的组数在通道维度上分割得到的，每个通道组的权重不同。卷积核选择单元用于选择最大通道组所对应的卷积核，自适应的调节不同样本图像上提取的特征信息；其中，最大通道组为所构建的每个概率分布张量中响应最高的通道组。特征拼接单元用于根据卷积核对每个通道组进行卷积得到卷积特征，并将所得到的多个卷积特征进行拼接。

请参阅图6，概率分布张量构建单元501包括特征编码单元5011、升维单元5012、第一降维单元5013和映射单元5014。特征编码单元用于将维度为H×W×C的特征块每个通道上的空间特征编码成维度为1×1×C的全局特征。升维单元用于将特征块的维度升高为1×1×(m×O)的特征块。第一降维单元用于将特征块的维度降低为m×O。映射单元用于在m维上使用柔性最大值激活函数映射成概率分布张量。

请参阅图7，卷积核选择单元502包括下采样单元5021、第二降维单元5022和分组单元5023。下采样单元用于将维度为H×W×C的特征块下采样成维度为K×K×C的特征块。第二降维单元用于依次使用两个卷积核大小为 1×1的卷积层改变维度。分组单元用于将特征块分组，得到m个大小为K×K 的卷积核。

优选的，深度学习网络模型包括动态激活通道卷积层，动态激活通道卷积层包括生成概率分布张量的第一分支和用于生成卷积核的第二分支，第一分支按照数据流的处理方向依次包括全局平均池化层、卷积层、维度变化层和柔性最大值激活函数层，第二分支包括按照数据流的处理方向依次包括自适应平均池化层、第一卷积层和第二卷积层。

第三方面，请参阅图8，图8示出了上述实施例中所涉及的电子设备的一种可能的结构示意图。该电子设备可以包括处理单元801、存储单元802和通信单元803。处理单元801可以设置为与存储单元802通信。存储单元802用于保存处理单元801可执行程序代码和数据等，其中，处理单元执行程序时实现上述任意一个方法实施例所提供的一种人脸识别方法。该通信单元803 用于支持该电子设备与其他网络实体的通信，以实现数据交互等功能，如该通信模块803支持电子设备与其他智能终端的通信，以实现数据交互功能。

其中，处理单元801可以是处理器或控制器。通信模块803可以是收发器、RF电路或通信接口等。存储模块802可以是存储器。

图8仅仅是本申请实施例的一种可能的实现方式，在实际应用中，该电子设备还可以包括更多或更少的部件，这里不作限制。

需要说明的是，该电子设备可以是服务器，也可以是智能终端，该智能终端可以是计算机、平板电脑或者智能手机等。

第四方面，本发明实施例还提供了一种存储介质，该存储介质中存储有计算机可读的程序指令，所述程序指令被处理单元执行时实现上述任意一个实施例中所提供的一种人脸识别方法。例如，该计算机可读存储介质可以是只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、只读光盘(Compact Disc Read-OnlyMemory，CD-ROM)、磁带、软盘和光数据存储设备等。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种人脸识别方法，该人脸识别方法采用深度学习网络模型识别样本图像中的人脸信息，其特征在于，该识别方法包括以下步骤：

2.根据权利要求1所述的一种人脸识别方法，其特征在于，所述概率分量的构建方法包括以下步骤：

将维度为H×W×C的特征块每个通道上的空间特征编码成维度为1×1×C的全局特征；

将特征块的维度升高为1×1×(m×O)的特征块；

将特征块的维度降低为m×O；

在m维上使用柔性最大值激活函数映射成概率分布张量。

3.根据权利要求1或者2所述的一种人脸识别方法，其特征在于，所述卷积核的获得，包括以下步骤：

将维度为H×W×C的特征块下采样成维度为K×K×C的特征块；

依次使用两个卷积核大小为1×1的卷积层改变维度；

将特征块分组，得到m个大小为K×K的卷积核。

4.根据权利要求3所述的一种人脸识别方法，其特征在于，所述深度学习网络模型包括动态激活通道卷积层，所述动态激活通道卷积层包括生成概率分布张量的第一分支和用于生成卷积核的第二分支，所述第一分支按照数据流的处理方向依次包括全局平均池化层、卷积层、维度变化层和柔性最大值激活函数层，所述第二分支包括按照数据流的处理方向依次包括自适应平均池化层、第一卷积层和第二卷积层。

5.一种人脸识别装置，该人脸识别装置采用深度学习网络模型识别样本图像中的人脸信息，其特征在于，该识别装置包括：

概率分布张量构建单元，用于分别为多个通道组构建对应的概率分布张量，多个所述通道组是按照预设的组数在通道维度上分割得到的，每个通道组的权重不同；

卷积核选择单元，用于选择最大通道组所对应的卷积核，自适应的调节不同所述样本图像上提取的特征信息；其中，所述最大通道组为所构建的每个所述概率分布张量中响应最高的通道组；以及

6.根据权利要求5所述的一种人脸识别装置，其特征在于，所述概率分布张量构建单元包括：

特征编码单元，用于将维度为H×W×C的特征块每个通道上的空间特征编码成维度为1×1×C的全局特征；

升维单元，用于将特征块的维度升高为1×1×(m×O)的特征块；

第一降维单元，用于将特征块的维度降低为m×O；以及

映射单元，用于在m维上使用柔性最大值激活函数映射成概率分布张量。

7.根据权利要求5或者6所述的一种人脸识别装置，其特征在于，所述卷积核选择单元包括：

下采样单元，用于将维度为H×W×C的特征块下采样成维度为K×K×C的特征块；

第二降维单元，用于依次使用两个卷积核大小为1×1的卷积层改变维度；以及

分组单元，用于将特征块分组，得到m个大小为K×K的卷积核。

8.根据权利要求7所述的一种人脸识别装置，其特征在于，所述深度学习网络模型包括动态激活通道卷积层，所述动态激活通道卷积层包括生成概率分布张量的第一分支和用于生成卷积核的第二分支，所述第一分支按照数据流的处理方向依次包括全局平均池化层、卷积层、维度变化层和柔性最大值激活函数层，所述第二分支包括按照数据流的处理方向依次包括自适应平均池化层、第一卷积层和第二卷积层。

9.一种电子设备，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：执行权利要求1～4中任意一项所述的方法。

10.一种存储介质，该存储介质中存储有计算机可读的程序指令，其特征在于，所述程序指令被处理器执行时实现权利要求1～4中任意一项所述的方法。