CN111507150B

CN111507150B - 利用基于深度神经网络的多重图像块组合识别人脸的方法

Info

Publication number: CN111507150B
Application number: CN202010010850.5A
Authority: CN
Inventors: 金桂贤; 金镕重; 金鹤京; 南云铉; 夫硕焄; 成明哲; 申东洙; 吕东勋; 柳宇宙; 李明春; 李炯树; 张泰雄; 郑景中; 诸泓模; 赵浩辰
Original assignee: Stradvision Inc
Current assignee: Stradvision Inc
Priority date: 2019-01-31
Filing date: 2020-01-06
Publication date: 2023-08-18
Anticipated expiration: 2040-01-06
Also published as: JP2020126624A; US10740593B1; US20200250402A1; JP6924517B2; KR102362744B1; CN111507150A; EP3690721A1; KR20200095356A

Abstract

本发明涉及一种人脸识别方法，该人脸识别方法为利用基于深度神经网络的多重图像块组合的方法，包括以下步骤：在获取到具有第一尺寸的人脸图像的情况下，人脸识别装置通过将所述人脸图像输入到特征提取网络，从而使所述特征提取网络对具有所述第一尺寸的所述人脸图像应用至少一次卷积运算来生成特征图，并且通过对所述特征图应用滑动池化运算来生成多个特征，所述特征提取网络的特征是以使用具有第二尺寸的学习用人脸图像来提取至少一个特征的方式进行学习，所述第二尺寸小于所述第一尺寸；以及所述人脸识别装置通过将所述多个特征输入到学习到的神经聚合网络，从而使所述神经聚合网络聚合所述多个特征并输出用于人脸识别的至少一个最佳特征。

Description

利用基于深度神经网络的多重图像块组合识别人脸的方法

技术领域

本发明涉及一种人脸识别装置，更具体而言，涉及一种用于使用与人脸图像对应的多个特征来识别人脸的系统。

背景技术

深度学习是基于算法组的机器学习及人工神经网络的一种，该算法试图使用具有多个处理层的深度图表来对高水平的数据提取进行建模。通常的深度学习架构可包含许多神经元层和数百万个参数。可以在安装有高速CPU的计算机上通过大量数据来学习这些参数，并且可通过能够在如整流线性单元(ReLU：rectified linear units)、信号丢失(dropout)、数据增强(data augmentation)和随机梯度下降(SGD：stochastic gradientdescent)等的许多层中操作的新学习技术来指引这些参数。

在现有的深度学习体系结构中，卷积神经网络(CNN：convolutional neuralnetwork)是最广泛使用的深度学习体系结构之一。尽管CNN的基本概念已被众所周知20年以上，但是CNN的真正力量是在近年来开发出深度学习理论以后得到认可。迄今为止，CNN在如人脸识别、图像分类、图像标题生成、视觉问答和自动驾驶汽车等的人工智能及机器学习应用中获得很大的成功。

人脸识别是在许多人脸识别应用中很重要的过程。大部分人脸感测技术能够轻松地感测到人脸的正面。

在输入人脸图像的情况下，这种人脸识别通过特征提取网络从人脸图像中提取特征，并且使用提取出的特征来识别人脸。

特别是，传统的人脸识别装置使用输入增强来提高人脸识别性能。

即，参照图1，在输入人脸图像的情况下，图像块生成部11为了生成与人脸图像对应的多个图像块而使用如变换(translation)或反转(flip)等的方法来处理人脸图像，并且特征提取网络12从已生成的各个图像块中提取特征，并且通过对提取出的特征进行平均化而输出与人脸图像对应的特征来执行关于人脸图像的人脸识别。

但是，对于这种现有的人脸识别装置来说，由于需要在特征提取网络中进行与生成的图像块对应的次数的正向计算(forward computing)，因此具有花费较多的时间且使用大量计算资源的缺点。

此外，对于现有的人脸识别装置来说，由于不能保证平均化后的特征是与人脸图像对应的最佳特征，因此具有难以保证人脸识别结果的可靠性的问题。

发明内容

技术问题

本发明的目的是解决上述的所有问题。

本发明的另一目的是在没有图像块生成过程的情况下能够获取多个特征。

本发明的又一目的是在没有图像块生成过程的情况下能够利用一次正向计算来获取多个特征。

本发明的又一目的是能够使人脸识别所消耗的时间最小化并且使计算资源的使用最小化。

本发明的又一目的是能够保证人脸识别结果的可靠性。

用于解决问题的方案

为了达到如上所述的本发明的目的并实现后述的本发明的特征效果，本发明的特征结构如下所述。

根据本发明的一方面，提供一种人脸识别方法，所述人脸识别方法为利用基于深度神经网络(deep neural network)的多重图像块组合(multiple patch combination)的方法，其特征在于，包括以下步骤：(a)在获取到具有第一尺寸的人脸图像的情况下，人脸识别装置通过将所述人脸图像输入到特征提取网络，从而使所述特征提取网络对具有所述第一尺寸的所述人脸图像应用至少一次卷积运算来生成特征图，并且通过对所述特征图应用滑动池化(sliding-pooling)运算来生成多个特征，其中，所述特征提取网络的特征是以使用具有第二尺寸的学习用人脸图像来提取至少一个特征的方式进行学习，所述第二尺寸小于所述第一尺寸；以及(b)所述人脸识别装置通过将所述多个特征输入到学习到的神经聚合网络，从而使所述神经聚合网络聚合所述多个特征并输出用于人脸识别的至少一个最佳特征。

在一实施例中，提供一种方法，其特征在于，在所述(a)步骤中，所述人脸识别装置通过将具有所述第一尺寸的所述人脸图像输入到所述特征提取网络的至少一个卷积层，使所述至少一个卷积层对具有所述第一尺寸的所述人脸图像应用至少一次卷积运算，从而生成第1_1尺寸的特征图，通过将所述1_1尺寸的特征图输入到池化层，使所述池化层对所述1_1尺寸的特征图应用滑动池化运算，从而生成第2_1尺寸的多个特征，所述第2_1尺寸为与具有所述第二尺寸的学习用人脸图像对应的学习用特征图的尺寸，所述第2_1尺寸是通过特征提取网络来生成的。

在一实施例中，提供一种方法，其特征在于，所述特征提取网络通过第一学习装置将以下过程(i)和(ii)重复多次来完成学习：(i)向所述至少一个卷积层输入具有所述第二尺寸的所述学习用人脸图像，使所述至少一个卷积层对具有所述第二尺寸的所述学习用人脸图像应用使用所述至少一个卷积层的至少一个以前学习到的卷积参数的至少一次卷积运算来生成所述第2_1尺寸的所述学习用特征图；(ii)通过参照与所述第2_1尺寸的所述学习用特征图对应的学习用特性信息及与所述学习用特性信息对应的GT，更新所述至少一个卷积层的所述至少一个以前学习到的卷积参数，从而使由第一损失层生成的一个以上的第一损失最小化。

在一实施例中，提供一种方法，其特征在于，所述人脸识别装置使所述池化层利用已设定的跨距来对所述第1_1尺寸的特征图应用滑动池化运算。

在一实施例中，提供一种方法，其特征在于，在所述(b)步骤中，所述人脸识别装置通过将所述多个特征输入到所述神经聚合网络的至少两个注意力块，使所述至少两个注意力块聚合所述多个特征并输出所述最佳特征。

在一实施例中，提供一种方法，其特征在于，所述人脸识别装置通过使所述至少两个注意力块聚合所述多个特征来生成与所述多个特征分别对应的各个质量得分，并且利用所述质量得分对所述多个特征进行加权求和(weighted summation)来输出所述最佳特征。

在一实施例中，提供一种方法，其特征在于，所述神经聚合网络通过所述第二学习装置将以下过程(i)、(ii)和(iii)重复多次来完成学习：(i)向所述至少两个注意力块输入与一个人脸的视频或所述一个人脸的图像组对应的多个学习用人脸特征，并且利用所述至少两个注意力块的以前学习到的注意力参数聚合所述学习用人脸特征，从而生成与所述学习用人脸特征分别对应的各个学习用质量得分；(ii)利用所述学习用质量得分对所述学习用人脸特征进行加权求和来输出学习用最佳特征；(iii)通过参照所述学习用最佳特征及与所述学习用最佳特征对应的GT，更新所述至少两个注意力块的所述以前学习到的注意力参数，从而使由第二损失层生成的一个以上的第二损失最小化。

在一实施例中，提供一种方法，其特征在于，进一步包括以下步骤：(c)所述人脸识别装置通过参照所述最佳特征从人脸信息数据库中检索参考特征来识别所述人脸图像上的人脸。

根据本发明的又一方面，提供一种人脸识别装置，所述人脸识别装置为利用基于深度神经网络的多重图像块组合的装置，其特征在于，包括：至少一个存储器，用于存储至少一个指令；以及至少一个处理器，被设定为执行所述指令以执行以下过程：(I)在获取到具有第一尺寸的人脸图像的情况下，通过将所述人脸图像输入到特征提取网络，从而使所述特征提取网络对具有所述第一尺寸的所述人脸图像应用至少一次卷积运算来生成特征图，并且通过对所述特征图应用滑动池化运算来生成多个特征，其中，所述特征提取网络的特征是以使用具有第二尺寸的学习用人脸图像来提取至少一个特征的方式进行学习，所述第二尺寸小于所述第一尺寸；以及(II)通过将所述多个特征输入到学习到的神经聚合网络，从而使所述神经聚合网络聚合所述多个特征并输出用于人脸识别的至少一个最佳特征。

在一实施例中，提供一种装置，其特征在于，在所述(I)过程中，所述处理器通过将具有所述第一尺寸的所述人脸图像输入到所述特征提取网络的至少一个卷积层，使所述至少一个卷积层对具有所述第一尺寸的所述人脸图像应用至少一次卷积运算，从而生成第1_1尺寸的特征图，通过将所述1_1尺寸的特征图输入到池化层，使所述池化层对所述1_1尺寸的特征图应用滑动池化运算，从而生成第2_1尺寸的多个特征，所述第2_1尺寸为与具有所述第二尺寸的学习用人脸图像对应的学习用特征图的尺寸，所述第2_1尺寸是通过特征提取网络来生成的。

在一实施例中，提供一种装置，其特征在于，所述特征提取网络通过第一学习装置将以下过程(i)和(ii)重复多次来完成学习：(i)向所述至少一个卷积层输入具有所述第二尺寸的所述学习用人脸图像，使所述至少一个卷积层对具有所述第二尺寸的所述学习用人脸图像应用使用所述至少一个卷积层的至少一个以前学习到的卷积参数的至少一次卷积运算来生成所述第2_1尺寸的所述学习用特征图；(ii)通过参照与所述第2_1尺寸的所述学习用特征图对应的学习用特性信息及与所述学习用特性信息对应的GT，更新所述至少一个卷积层的所述至少一个以前学习到的卷积参数，从而使由第一损失层生成的一个以上的第一损失最小化。

在一实施例中，提供一种装置，其特征在于，所述处理器使所述池化层利用已设定的跨距来对所述第1_1尺寸的特征图应用滑动池化运算。

在一实施例中，提供一种装置，其特征在于，在所述(II)过程中，所述处理器通过将所述多个特征输入到所述神经聚合网络的至少两个注意力块，使所述至少两个注意力块聚合所述多个特征并输出所述最佳特征。

在一实施例中，提供一种装置，其特征在于，所述处理器通过使所述至少两个注意力块聚合所述多个特征来生成与所述多个特征分别对应的各个质量得分，并且利用所述质量得分对所述多个特征进行加权求和来输出所述最佳特征。

在一实施例中，提供一种装置，其特征在于，所述神经聚合网络通过第二学习装置将以下过程(i)、(ii)和(iii)重复多次来完成学习：(i)向所述至少两个注意力块输入与一个人脸的视频或所述一个人脸的图像组对应的多个学习用人脸特征，并且利用所述至少两个注意力块的以前学习到的注意力参数聚合所述学习用人脸特征，从而生成与所述学习用人脸特征分别对应的各个学习用质量得分；(ii)利用所述学习用质量得分对所述学习用人脸特征进行加权求和来输出学习用最佳特征；(iii)通过参照所述学习用最佳特征及与所述学习用最佳特征对应的GT，更新所述至少两个注意力块的所述以前学习到的注意力参数，从而使由第二损失层生成的一个以上的第二损失最小化。

在一实施例中，提供一种装置，其特征在于，所述处理器进一步执行以下过程：(III)通过参照所述最佳特征从人脸信息数据库中检索参考特征来识别所述人脸图像上的人脸。

除此之外，进一步提供一种计算机可读存储介质，用于存储执行本发明的方法的计算机程序。

发明效果

本发明在没有通过输入比学习到的图像更大的图像来生成图像块的过程的情况下能够获取多个特征。

本发明由于在通过输入比学习到的图像更大的图像来提取特征的期间只利用一次正向计算来获取多个特征，因此能够削减用于特征提取的计算时间及计算资源的消耗。

本发明由于通过利用质量得分对多个特征进行加权求和来输出最佳特征，因此能够保证人脸识别结果的可靠性。

附图说明

为了说明本发明的实施例而所附的以下图只是本发明的实施例中的一部分，本发明所属技术领域的具有普通知识的人员“以下，称为“普通技术人员”在未实现发明工作的情况下可以以该图为基础得到其他图。

图1是示意性地表示现有的人脸识别装置的图。

图2是示意性地表示根据本发明的一实施例利用基于深度神经网络的多重图像块组合来识别人脸的人脸识别装置的图。

图3是示意性地表示根据本发明的一实施例利用基于深度神经网络的多重图像块组合来识别人脸的方法的图。

图4是示意性地表示根据本发明的一实施例利用基于深度神经网络的多重图像块组合来识别人脸的方法中的特征提取网络的图。

图5是示意性地表示在根据本发明的一实施例利用基于深度神经网络的多重图像块组合来识别人脸的方法中生成的示例性的多重图像块的图。

图6是示意性地表示根据本发明的一实施例利用基于深度神经网络的多重图像块组合来识别人脸的方法中的神经聚合网络的图。

具体实施方式

关于后述的本发明的详细说明将会参照示例性地图示本发明能够实施的特定实施例的附图。对这些实施例进行详细说明，使得本领域技术人员能够充分实施本发明。应理解为本发明的各种实施例虽然彼此不同但不必相互排斥。例如，在此记载的特定形状、结构及特性与一实施例相关联，在不脱离本发明的思想及范围的情况下也可以以其他实施例实现。此外，应理解为在不脱离本发明的思想及范围的情况下，能够变更所公开的各个实施例内的个别结构要素的位置或布置。因此，后述的详细说明不应视为限定性的，如果适当说明，则本发明的范围仅由与该权利要求所主张的内容均等的所有范围和所附的权利要求来限定。在附图中，相似的附图标记是指在各方面相同或相似的功能。

此外，在本发明的详细说明及权利要求中，“包括”这一词语及其变形并非用来去除其他技术特征、附加物、结构要素或步骤。本领域技术人员能够从本发明的说明书以及本发明的实施中显然可知本发明的其他目的、优点及特性的一部分。以下示例及附图作为实例提供，并不是用来限定本发明。

本发明中提到的各种图像可包括与铺装或未铺装的道路相关的图像，在该情况下能够假定出现在道路环境中的物体(例如，汽车、人类、动物、植物、物体、建筑物、如飞机或无人机等的飞行器以及其他障碍物)，但本发明并不一定限定于此，本发明中提到的各种图像还可以是与道路无关的图像(例如，与非铺装道路、小巷、空地、海洋、湖泊、河流、山脉、森林、沙漠、天空或室内相关联的图像)，在该情况下能够假定有可能出现在非铺装道路、小巷、空地、海洋、湖泊、河流、山脉、森林、沙漠、天空或室内环境中的物体(例如，汽车、人类、动物、植物、物体、建筑物、如飞机和无人机等的飞行器以及其他障碍物)，但并不一定限定于此。

下面，参照附图对本发明的优选实施例进行详细说明，使得本发明所属技术领域的普通技术人员能够容易实施本发明。

图2是示意性地表示根据本发明的一实施例利用基于神经网络的多重图像块来识别人脸的人脸识别装置的图。参照图2，人脸识别装置100可包括：存储器110，用于存储利用基于神经网络的多重图像块组合来识别至少一个人脸图像的人脸识别的指令；和处理器120，对应于存储在存储器110中的指令而利用基于神经网络的多重图像块组合来从人脸图像中识别人脸。在此，神经网络可包括深度学习网络或深度神经网络，但本发明的范围并不限定于此。

具体而言，人脸识别装置100能够典型地利用至少一个计算装置(能够包含计算机处理器、存储器、贮存器、输入装置、输出装置或其他现有的计算装置的结构要素的装置、如路由器或开关等的电子通信装置、如网络附属存储(NAS)及存储区域网络(SAN)的电子信息贮存器系统)和至少一个计算机软件(能够使计算装置以特定方式进行的指令)的组合来实现所需的系统性能。

此外，计算装置的处理器可包括微处理器(MPU：Micro Processing Unit)、中央处理器(CPU)、高速缓冲存储器或数据总线等的硬件结构。此外，计算装置还可以进一步包括操作系统及执行特定目的的应用的软件结构。

但是，即便如此描述了计算装置，也并不排除计算装置包括集成有用于实施本发明的介质、处理器及存储器的形态的集成处理器的情况。

参照图3对根据本发明的一实施例利用人脸识别装置100且利用基于深度神经网络的多重图像块组合来识别人脸的方法进行说明则如下所述。

首先，在获取到具有第一尺寸的人脸图像的情况下，人脸识别装置100通过将所述人脸图像输入到特征提取网络130，使所述特征提取网络130对具有所述第一尺寸的所述人脸图像应用至少一次卷积运算来生成特征图，并且通过对所述特征图应用滑动池化运算来生成多个特征。所述特征提取网络130的特征是以使用具有第二尺寸的学习用人脸图像来提取至少一个特征的方式进行学习，所述第二尺寸小于所述第一尺寸。

作为一例，参照图4，在获取到具有第一尺寸的人脸图像的情况下，特征提取网络130利用第一卷积层131_1至第n卷积层131_n对具有第一尺寸的人脸图像应用多次卷积运算而生成第1_1尺寸的特征图。在此，第一卷积层131_1至第n卷积层131_n可以以对具有第一尺寸的学习用人脸图像应用多次卷积运算而生成第2_1尺寸的学习用特征图的方式进行学习，第2_1尺寸可以小于第1_1尺寸。

并且，参照图5，特征提取网络130通过使池化层132使用第2_1尺寸的池化尺寸对第1_1尺寸的特征图应用滑动池化运算来生成第2_1尺寸的多个特征。在此，可利用已设定的跨距来执行滑动池化运算。此外，图5并不图示实际特征图，为了便于说明而图示与特征图对应的人脸图像。

对此进一步详细说明则如下所述。

学习装置可以以通过使特征提取网络130对192×192尺寸的学习用人脸图像应用多次卷积运算来生成6×6尺寸的特征图，并且使池化层对6×6尺寸的特征图应用一次以上的6×6池化运算来输出特征向量的方式进行学习。

在此，特征提取网络130的各个卷积层131_1至131_n能够通过对与自身对应的输入图像或输入特征图应用卷积运算而以与此对应的输入图像或输入特征图的尺寸的1/2尺寸输出各个特征图，并且通过六次卷积运算而将192×192尺寸的学习用人脸图像转换为6×6尺寸的特征图。

并且，在对如此学习到的特征提取网络130输入320×320尺寸的人脸图像的情况下，特征提取网络130能够通过与学习过程类似的过程来执行六次卷积运算而输出10×10尺寸的特征图。

然后，特征提取网络130能够通过使池化层132使用滑动窗口对10×10尺寸的特征图应用6×6池化运算，来生成关于与6×6尺寸对应的至少一个区域的25个特征。即，池化层能够通过使6×6尺寸的窗口按1跨距移动并对10×10尺寸的特征图应用池化运算来生成25个特征。在此，池化层132能够输出对多个特征进行向量化而生成的特征向量。

其结果，与现有不同地，本发明能够通过只利用一次正向计算来获取关于一个人脸图像的多个特征。

另外，特征提取网络130能够通过第一学习装置将以下过程(i)和(ii)重复多次来完成学习：(i)向所述至少一个卷积层输入具有所述第二尺寸的所述学习用人脸图像，从而使所述至少一个卷积层对具有所述第二尺寸的所述学习用人脸图像应用使用至少一个卷积层的至少一个以前学习到的卷积参数的至少一次卷积运行来生成所述第2_1尺寸的所述学习用特征图；(ii)通过参照与所述第2_1尺寸的所述学习用特征图对应的学习用特性信息(characteristic information)及与所述学习用特性信息对应的GT，更新所述至少一个卷积层的所述至少一个以前学习到的卷积参数，从而使由第一损失层生成的一个以上的第一损失最小化。

即，所述至少一个卷积层可以以如下方式进行学习：通过参照以下(i)和(ii)中的两种差异中的至少一个，反复进行通过反向传播来更新至少一个卷积层的至少一个以前学习到的卷积参数的过程，从而输出与所输入的人脸图像对应的准确的人脸特征：(i)(i-1)通过对第2_1尺寸的学习用特征图应用池化运算并利用池化层池化为第2_1尺寸的学习用特征及(i-2)学习用人脸图像的已设定的特征之间的差异；以及(ii)(ii-1)利用学习用特征识别出的人脸信息及(ii-2)与学习用人脸图像对应的已设定的人脸信息之间的差异。

接着，人脸识别装置100通过将获取到的多个特征输入到神经聚合网络140并使神经聚合网络140聚合多个特征来输出用于人脸识别的至少一个最佳特征。

作为一例，参照图6，人脸识别装置100能够通过将多个特征输入到神经聚合网络140的至少两个注意力块，使至少两个注意力块聚合所述多个特征来输出所述最佳特征。

即，人脸识别装置100能够通过使神经聚合网络140的至少两个注意力块聚合所述多个特征来生成与所述多个特征中的每个对应的质量得分，并且利用所述质量得分对所述多个特征进行加权求和来输出所述最佳特征。

在此，神经聚合网络140可以只利用用于对视频影像执行人脸识别的神经聚合网络上的聚合模块。此外，质量得分可以是以神经聚合网络140具有最高的人脸识别性能的方式进行学习的值。

另外，在2017IEEE计算机视觉与模式识别会议(CVPR)中发表的“基于神经网络的视频人脸识别(Neural Aggregation Network for Video Face Recognition)”中记载有对视频影像执行人脸识别的神经聚合网络。

另外，神经聚合网络140能够通过第二学习装置将以下过程(i)、(ii)和(iii)重复多次来完成学习：(i)向所述至少两个注意力块输入与一个人脸的视频或所述一个人脸的图像组对应的多个学习用人脸特征，并且利用所述至少两个注意力块的以前学习到的注意力参数来聚合所述学习用人脸特征，从而生成与所述学习用人脸特征分别对应的各个学习用质量得分；(ii)利用所述学习用质量得分对所述学习用人脸特征进行加权求和来输出学习用最佳特征；(iii)通过参照所述学习用最佳特征及与所述学习用最佳特征对应的GT，更新所述至少两个注意力块的所述以前学习到的注意力参数，从而使由第二损失层生成的一个以上的第二损失最小化。

接着，人脸识别装置100能够通过利用使用质量得分对由多个特征的加权求和生成的用于人脸识别的最佳特征，通过参照所述最佳特征从人脸信息数据库中检索参考特征来识别所述人脸图像上的人脸。

即，本发明在没有生成图像块的过程的情况下，能够只利用一次正向计算来获取多个转换后的特征，并且通过神经聚合网络获取加权求和特征来使人脸识别性能最大化，其中，该加权求和特征对多个转换后的特征中的在人脸识别方面起重要作用的特征施加更高的加权值。

根据这种本发明，特征提取网络能够通过使用比学习处理器所执行的图像更大的图像来生成有效的多个时刻特征，并且神经聚合网络能够输出最佳特征。其结果，能够在移动装置、监视器或无人机等中进行抗波动力强且姿势不变的人脸识别。

此外，以上说明的本发明所涉及的实施例可以以能够通过各种计算机结构要素执行的计算机命令的形态实现，并且存储在计算机可读存储介质中。所述计算机可读存储介质可以单独或组合包含程序命令、数据文件、数据结构等。存储在所述计算机可读存储介质中的程序命令是为本发明而特别设计并构成的，但也可以由计算机软件领域的技术人员公知而能够被使用。计算机可读存储介质的例子包含诸如硬盘、软盘及磁带等的磁介质、诸如CD-ROM、DVD等的光存储介质、诸如软盘(floptical disk)等的磁光介质、以及诸如只读存储器(ROM)、随机存取存储器(RAM)、快闪存储器等的为了存储及执行程序命令而专门构成的硬件装置。作为程序命令的例子不仅包含如由编译器产生的机器语言代码，还包含使用解释器等能够由计算机运行的高级语言代码。为了执行本发明所涉及的处理，所述硬件装置可被构成为以一个以上的软件模块实现操作，反之也同样。

以上，通过如具体结构要素等的特定事项和限定的实施例及附图对本发明进行了说明，但这只是为了有助于对本发明的更全面的理解而提供的，本发明并不限定于上述实施例，本发明所属技术领域的技术人员基于这种记载可进行各种修改及变形。

因此，本发明的思想并非由上述说明的实施例限定，权利要求书及与该权利要求书等同或等价变形的所有内容属于本发明的思想的范围。

Claims

1.一种人脸识别方法，所述人脸识别方法为利用基于深度神经网络的多重图像块组合的方法，其特征在于，包括以下步骤：

(a)在获取到具有第一尺寸的人脸图像的情况下，人脸识别装置通过将所述人脸图像输入到特征提取网络，从而使所述特征提取网络对具有所述第一尺寸的所述人脸图像应用至少一次卷积运算来生成特征图，并且通过对所述特征图应用滑动池化运算来生成多个特征，其中，所述特征提取网络的特征是以使用具有第二尺寸的学习用人脸图像来提取至少一个特征的方式进行学习，所述第二尺寸小于所述第一尺寸；

(b)所述人脸识别装置通过将所述多个特征输入到学习到的神经聚合网络，从而使所述神经聚合网络聚合所述多个特征并输出用于人脸识别的至少一个最佳特征；以及

(c)所述人脸识别装置通过参照所述最佳特征从人脸信息数据库中检索参考特征来识别所述人脸图像上的人脸，

在所述(a)步骤中，所述人脸识别装置通过将具有所述第一尺寸的所述人脸图像输入到所述特征提取网络的至少一个卷积层，使所述至少一个卷积层对具有所述第一尺寸的所述人脸图像应用至少一次卷积运算，从而生成第1_1尺寸的特征图，通过将所述1_1尺寸的特征图输入到池化层，使所述池化层对所述1_1尺寸的特征图应用滑动池化运算，从而生成第2_1尺寸的多个特征，所述第2_1尺寸为与具有所述第二尺寸的学习用人脸图像对应的学习用特征图的尺寸，所述第2_1尺寸是通过特征提取网络来生成的，

所述特征提取网络通过第一学习装置将以下过程(i)和(ii)重复多次来完成学习：(i)向所述至少一个卷积层输入具有所述第二尺寸的所述学习用人脸图像，从而使所述至少一个卷积层对具有所述第二尺寸的所述学习用人脸图像应用使用至少一个卷积层的至少一个以前学习到的卷积参数的至少一次卷积运算来生成所述第2_1尺寸的所述学习用特征图；(ii)通过参照与所述第2_1尺寸的所述学习用特征图对应的学习用特性信息及与所述学习用特性信息对应的GT，更新所述至少一个卷积层的所述至少一个以前学习到的卷积参数，从而使由第一损失层生成的一个以上的第一损失最小化，

在所述(b)步骤中，

所述人脸识别装置通过将所述多个特征输入到所述神经聚合网络的至少两个注意力块，使所述至少两个注意力块聚合所述多个特征并输出所述最佳特征，

所述人脸识别装置通过使所述至少两个注意力块聚合所述多个特征来生成与所述多个特征分别对应的各个质量得分，并且利用所述质量得分对所述多个特征进行加权求和来输出所述最佳特征。

2.根据权利要求1所述的方法，其特征在于，

所述人脸识别装置使所述池化层利用已设定的跨距来对所述第1_1尺寸的特征图应用滑动池化运算。

3.根据权利要求1所述的方法，其特征在于，

所述神经聚合网络通过所述第二学习装置将以下过程(i)、(ii)和(iii)重复多次来完成学习：(i)向所述至少两个注意力块输入与一个人脸的视频或所述一个人脸的图像组对应的多个学习用人脸特征，并且利用所述至少两个注意力块的以前学习到的注意力参数聚合所述学习用人脸特征，从而生成与所述学习用人脸特征分别对应的各个学习用质量得分；(ii)利用所述学习用质量得分对所述学习用人脸特征进行加权求和来输出学习用最佳特征；(iii)通过参照所述学习用最佳特征及与所述学习用最佳特征对应的GT，更新所述至少两个注意力块的所述以前学习到的注意力参数，从而使由第二损失层生成的一个以上的第二损失最小化。

4.一种人脸识别装置，所述人脸识别装置为利用基于深度神经网络的多重图像块组合的装置，其特征在于，包括：

至少一个存储器，用于存储至少一个指令；以及

至少一个处理器，被设定为执行所述指令以执行以下过程：(I)在获取到具有第一尺寸的人脸图像的情况下，通过将所述人脸图像输入到特征提取网络，从而使所述特征提取网络对具有所述第一尺寸的所述人脸图像应用至少一次卷积运算来生成特征图，并且通过对所述特征图应用滑动池化运算来生成多个特征，其中，所述特征提取网络的特征是以使用具有第二尺寸的学习用人脸图像来提取至少一个特征的方式进行学习，所述第二尺寸小于所述第一尺寸；(II)通过将所述多个特征输入到学习到的神经聚合网络，从而使所述神经聚合网络聚合所述多个特征并输出用于人脸识别的至少一个最佳特征；以及(III)通过参照所述最佳特征从人脸信息数据库中检索参考特征来识别所述人脸图像上的人脸，

在所述(I)过程中，所述处理器通过将具有所述第一尺寸的所述人脸图像输入到所述特征提取网络的至少一个卷积层，使所述至少一个卷积层对具有所述第一尺寸的所述人脸图像应用至少一次卷积运算，从而生成第1_1尺寸的特征图，通过将所述1_1尺寸的特征图输入到池化层，使所述池化层对所述1_1尺寸的特征图应用滑动池化运算，从而生成第2_1尺寸的多个特征，所述第2_1尺寸为与具有所述第二尺寸的学习用人脸图像对应的学习用特征图的尺寸，所述第2_1尺寸是通过特征提取网络来生成的，

所述特征提取网络通过第一学习装置将以下过程(i)和(ii)重复多次来完成学习：(i)向所述至少一个卷积层输入具有所述第二尺寸的所述学习用人脸图像，使所述至少一个卷积层对具有所述第二尺寸的所述学习用人脸图像应用使用所述至少一个卷积层的至少一个以前学习到的卷积参数的至少一次卷积运算来生成所述第2_1尺寸的所述学习用特征图；(ii)通过参照与所述第2_1尺寸的所述学习用特征图对应的学习用特性信息及与所述学习用特性信息对应的GT，更新所述至少一个卷积层的所述至少一个以前学习到的卷积参数，从而使由第一损失层生成的一个以上的第一损失最小化，

在所述(II)过程中，

所述处理器通过将所述多个特征输入到所述神经聚合网络的至少两个注意力块，使所述至少两个注意力块聚合所述多个特征并输出所述最佳特征，

所述处理器通过使所述至少两个注意力块聚合所述多个特征来生成与所述多个特征分别对应的各个质量得分，并且利用所述质量得分对所述多个特征进行加权求和来输出所述最佳特征。

5.根据权利要求4所述的装置，其特征在于，

所述处理器使所述池化层利用已设定的跨距来对所述第1_1尺寸的特征图应用滑动池化运算。

6.根据权利要求4所述的装置，其特征在于，

所述神经聚合网络通过第二学习装置将以下过程(i)、(ii)和(iii)重复多次来完成学习：(i)向所述至少两个注意力块输入与一个人脸的视频或所述一个人脸的图像组对应的多个学习用人脸特征，并且利用所述至少两个注意力块的以前学习到的注意力参数聚合所述学习用人脸特征，从而生成与所述学习用人脸特征分别对应的各个学习用质量得分；(ii)利用所述学习用质量得分对所述学习用人脸特征进行加权求和来输出学习用最佳特征；(iii)通过参照所述学习用最佳特征及与所述学习用最佳特征对应的GT，更新所述至少两个注意力块的所述以前学习到的注意力参数，从而使由第二损失层生成的一个以上的第二损失最小化。