CN116363738A

CN116363738A - 一种基于多移动目标的人脸识别方法、系统及存储介质

Info

Publication number: CN116363738A
Application number: CN202310642095.6A
Authority: CN
Inventors: 黄剑; 李佩剑; 伍强
Original assignee: Chengdu Ruitong Technology Co ltd
Current assignee: Chengdu Ruitong Technology Co ltd
Priority date: 2023-06-01
Filing date: 2023-06-01
Publication date: 2023-06-30

Abstract

公开了一种基于多移动目标的人脸识别方法、系统及存储介质。其首先从由摄像头采集的人员监控视频提取多个人员监控关键帧，接着分别对所述各个人员监控关键帧进行人脸检测以得到多组人脸检测区域候选框，然后对所述多组人脸检测区域候选框进行人脸跟踪以得到对应于多个对象的多组人脸感兴趣区域候选框，接着将每组所述人脸感兴趣区域候选框通过卷积神经网络模型以得到人脸检测特征图，然后将所述人脸检测特征图通过双向注意力机制模块以得到分类特征图，最后对所述分类特征图进行特征分布优化后通过分类器以得到用于表示身份标签的分类结果，提高了人脸识别的精准性。

Description

一种基于多移动目标的人脸识别方法、系统及存储介质

技术领域

本申请涉及智人脸识别领域，且更为具体地，涉及一种基于多移动目标的人脸识别方法、系统及存储介质。

背景技术

人脸识别技术是基于人的脸部特征信息进行身份识别的一种生物识别技术，主要是用摄像机或摄像头采集含有人脸的图像或视频流，并自动在图像中检测和跟踪人脸，进而对检测到的人脸进行脸部识别的一系列相关技术。

例如，申请号为201810796508.5的中国专利公开了一种人脸识别方法，包括：获取待识别图像；根据边缘检测算法，获取第一人脸区域，根据基准RGB值范围，获取第二人脸区域，将第一人脸区域与第二人脸区域重合的区域作为第三人脸区域；从第三人脸区域中获取特征区域，以特征区域的中心确定一矩形区域，将矩形区域依次绕中心旋转0～180°，每个旋转操作后，均将矩形区域分成多个小区域，分别提取每个小区域的纹理特征；将与每个旋转操作对应的纹理特征集合与数据库进行比对，计算每个旋转操作对应的相似度，若每个旋转操作对应的相似度均高于设定阈值，则将数据库内对应的人脸作为识别到的人脸。该发明能够避免遮挡物影响识别，并且增加了特征信息量，提高了识别准确率。

又如，申请号为201610364182.X的中国专利公开了一种人脸识别方法，所述方法包括：检测摄像头处于开启状态后，将所述显示屏的亮度值调整至最大值；采集所述显示屏前方的人脸图像；判断所述人脸图像是否满足人脸识别的要求，若否，对所述人脸图像进行非线性变换处理后得到满足人脸识别要求的人脸图像；对满足人脸识别要求的所述人脸图像进行识别。该发明的人脸识别方法在电子设备处于拍照模式时自动调整显示屏亮度至最强，为人脸拍摄提供充足光照，不仅提高了人脸识别效率，还通过对人脸图像进行非线性变换处理，进一步提高了获取的人脸图像的质量，从而提高了人脸识别准确率。

类似上述的人脸识别方法主要是基于监控图像或视频进行识别，但相似的人脸识别技术运用到电梯内人脸识别时，由于电梯内会存在有多个移动的目标，并且电梯内的人员可能会有进出、移动、遮挡等情况，这增加了人脸识别的难度，从而降低了电梯内乘客的身份识别精准度。

因此，期望一种优化的基于多移动目标的人脸识别方案。

发明内容

为了解决上述技术问题，提出了本申请。本申请的实施例提供了一种基于多移动目标的人脸识别方法、系统及存储介质。其首先从由摄像头采集的人员监控视频提取多个人员监控关键帧，接着，分别对所述各个人员监控关键帧进行人脸检测以得到多组人脸检测区域候选框，然后，对所述多组人脸检测区域候选框进行人脸跟踪以得到对应于多个对象的多组人脸感兴趣区域候选框，接着，将每组所述人脸感兴趣区域候选框通过卷积神经网络模型以得到人脸检测特征图，然后，将所述人脸检测特征图通过双向注意力机制模块以得到分类特征图，最后，对所述分类特征图进行特征分布优化后通过分类器以得到用于表示身份标签的分类结果，提高了人脸识别的精准性。

根据本申请的一个方面，提供了一种基于多移动目标的人脸识别方法，其包括：

获取由摄像头采集的人员监控视频；

从所述人员监控视频提取多个人员监控关键帧；

分别对所述各个人员监控关键帧进行人脸检测以得到多组人脸检测区域候选框，其中，每组所述人脸检测区域候选框包含多个人脸检测区域候选框；

对所述多组人脸检测区域候选框进行人脸跟踪以得到对应于多个对象的多组人脸感兴趣区域候选框；

将每组所述人脸感兴趣区域候选框通过作为特征提取器的卷积神经网络模型以得到人脸检测特征图；

将所述人脸检测特征图通过双向注意力机制模块以得到分类特征图；

对所述分类特征图进行特征分布优化以得到优化分类特征图；

以及将所述优化分类特征图通过分类器以得到分类结果，所述分类结果用于表示身份标签。

在上述的基于多移动目标的人脸识别方法中，分别对所述各个人员监控关键帧进行人脸检测以得到多组人脸检测区域候选框，其中，每组所述人脸检测区域候选框包含多个人脸检测区域候选框，包括：

使用多任务卷积神经网络分别对所述各个人员监控关键帧进行人脸检测以得到所述多组人脸检测区域候选框。

在上述的基于多移动目标的人脸识别方法中，将每组所述人脸感兴趣区域候选框通过作为特征提取器的卷积神经网络模型以得到人脸检测特征图，包括：

所述作为特征提取器的卷积神经网络模型的各层在层的正向传递中对输入数据分别进行如下处理：

对输入数据进行卷积处理以得到卷积特征图；

对所述卷积特征图进行均值池化处理以得到池化特征图；

以及对所述池化特征图进行非线性激活以得到激活特征图；

其中，所述作为特征提取器的卷积神经网络模型的最后一层的输出为所述人脸检测特征图，所述作为特征提取器的卷积神经网络模型的第一层的输入为每组所述人脸感兴趣区域候选框。

在上述的基于多移动目标的人脸识别方法中，将所述人脸检测特征图通过双向注意力机制模块以得到分类特征图，包括：

对所述人脸检测特征图进行沿通道维度的全局均值池化以得到全局池化特征矩阵；

将所述全局池化特征矩阵分别沿着水平方向和垂直方向进行池化以得到第一向池化向量和第二向池化向量；

对所述第一向池化向量和所述第二向池化向量进行关联编码以得到双向关联矩阵；

将所述双向关联矩阵输入Sigmoid激活函数以得到双向关联权重矩阵；

以及计算所述双向关联权重矩阵和所述人脸检测特征图的沿通道维度的各个特征矩阵之间的按位置点乘以得到所述分类特征图。

在上述的基于多移动目标的人脸识别方法中，对所述分类特征图进行特征分布优化以得到优化分类特征图，包括：

以如下优化公式计算所述分类特征图中各个位置特征值的位置信息图式场景注意力无偏估计因数以得到所述多个位置信息图式场景注意力无偏估计因数；

其中，所述优化公式为：

；

其中，

是所述分类特征图中各个位置特征值，/>

为所述分类特征图的各个位置特征值的位置坐标，且/>

是所述分类特征图的所有特征值的全局均值，/>

和

分别代表将二维实数和三维实数映射为一维实数的函数，/>

、/>

和/>

分别是所述分类特征图的宽度、高度和通道数，/>

表示以2为底的对数函数，/>

表示所述多个位置信息图式场景注意力无偏估计因数中的各个位置信息图式场景注意力无偏估计因数。

在上述的基于多移动目标的人脸识别方法中，将所述优化分类特征图通过分类器以得到分类结果，所述分类结果用于表示身份标签，包括：

将所述优化分类特征图按照行向量展开为优化分类特征向量；

使用所述分类器的全连接层对所述优化分类特征向量进行全连接编码以得到编码分类特征向量；

以及将所述编码分类特征向量输入所述分类器的Softmax分类函数以得到所述分类结果。

根据本申请的另一个方面，提供了一种基于多移动目标的人脸识别系统，其包括：

视频采集模块，用于获取由摄像头采集的人员监控视频；

关键帧提取模块，用于从所述人员监控视频提取多个人员监控关键帧；

人脸检测模块，用于分别对所述各个人员监控关键帧进行人脸检测以得到多组人脸检测区域候选框，其中，每组所述人脸检测区域候选框包含多个人脸检测区域候选框；

人脸跟踪模块，用于对所述多组人脸检测区域候选框进行人脸跟踪以得到对应于多个对象的多组人脸感兴趣区域候选框；

特征提取模块，用于将每组所述人脸感兴趣区域候选框通过作为特征提取器的卷积神经网络模型以得到人脸检测特征图；

双向注意力编码模块，用于将所述人脸检测特征图通过双向注意力机制模块以得到分类特征图；

特征分布优化模块，用于对所述分类特征图进行特征分布优化以得到优化分类特征图；

以及分类模块，用于将所述优化分类特征图通过分类器以得到分类结果，所述分类结果用于表示身份标签。

在上述的基于多移动目标的人脸识别系统中，所述人脸检测模块，用于使用多任务卷积神经网络分别对所述各个人员监控关键帧进行人脸检测以得到所述多组人脸检测区域候选框。

在上述的基于多移动目标的人脸识别系统中，所述特征提取模块，用于所述作为特征提取器的卷积神经网络模型的各层在层的正向传递中对输入数据分别进行：

对输入数据进行卷积处理以得到卷积特征图；

对所述卷积特征图进行均值池化处理以得到池化特征图；

以及对所述池化特征图进行非线性激活以得到激活特征图；

根据本申请的另一个方面，提供了一种存储介质，所述存储介质中存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行前述任一项所述的基于多移动目标的人脸识别方法。

与现有技术相比，本申请提供的基于多移动目标的人脸识别方法、系统及存储介质，其首先从由摄像头采集的人员监控视频提取多个人员监控关键帧，接着，分别对所述各个人员监控关键帧进行人脸检测以得到多组人脸检测区域候选框，然后，对所述多组人脸检测区域候选框进行人脸跟踪以得到对应于多个对象的多组人脸感兴趣区域候选框，接着，将每组所述人脸感兴趣区域候选框通过卷积神经网络模型以得到人脸检测特征图，然后，将所述人脸检测特征图通过双向注意力机制模块以得到分类特征图，最后，对所述分类特征图进行特征分布优化后通过分类器以得到用于表示身份标签的分类结果，提高了人脸识别的精准性。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员而言，在没有做出创造性劳动的前提下，还可以根据这些附图获得其他的附图。以下附图并未刻意按实际尺寸等比例缩放绘制，重点在于示出本申请的主旨。

图1为根据本申请实施例的基于多移动目标的人脸识别方法的应用场景图。

图2为根据本申请实施例的基于多移动目标的人脸识别方法的流程图。

图3为根据本申请实施例的基于多移动目标的人脸识别方法的架构示意图。

图4为根据本申请实施例的基于多移动目标的人脸识别方法的子步骤S160的流程图。

图5为根据本申请实施例的基于多移动目标的人脸识别方法的子步骤S180的流程图。

图6为根据本申请实施例的基于多移动目标的人脸识别系统的框图。

具体实施方式

下面将结合附图对本申请实施例中的技术方案进行清楚、完整地描述，显而易见地，所描述的实施例仅仅是本申请的部分实施例，而不是全部的实施例。基于本申请实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，也属于本申请保护的范围。

如本申请和权利要求书中所示，除非上下文明确提示例外情形，“一”、“一个”、“一种”和/或“该”等词并非特指单数，也可包括复数。一般说来，术语“包括”与“包含”仅提示包括已明确标识的步骤和元素，而这些步骤和元素不构成一个排它性的罗列，方法或者设备也可能包含其他的步骤或元素。

虽然本申请对根据本申请的实施例的系统中的某些模块做出了各种引用，然而，任何数量的不同模块可以被使用并运行在用户终端和/或服务器上。所述模块仅是说明性的，并且所述系统和方法的不同方面可以使用不同模块。

本申请中使用了流程图用来说明根据本申请的实施例的系统所执行的操作。应当理解的是，前面或下面操作不一定按照顺序来精确地执行。相反，根据需要，可以按照倒序或同时处理各种步骤。同时，也可以将其他操作添加到这些过程中，或从这些过程移除某一步或数步操作。

下面，将参考附图详细地描述根据本申请的示例实施例。显然，所描述的实施例仅仅是本申请的一部分实施例，而不是本申请的全部实施例，应理解，本申请不受这里描述的示例实施例的限制。

如上所述，传统的人脸识别方法主要是基于监控图像或视频进行识别，但在电梯内会存在有多个移动的目标，并且电梯内的人员可能会有进出、移动、遮挡等情况，这增加了人脸识别的难度，从而降低了电梯内乘客的身份识别精准度。因此，期望一种优化的基于多移动目标的人脸识别方案。

相应地，考虑到在实际进行电梯内的乘客身份识别过程中，关键在于对于监控视频中的各个乘客进行人脸识别，即对电梯内的视频帧进行人脸检测。但是，由于电梯内的人员可能会有进出、移动、遮挡等情况，为了能够跟踪到的每一个人员的人脸以进行人脸识别，以此来判断该人脸是否属于已知的身份，因此，在本申请的技术方案中，期望在电梯场景中，基于多移动目标的人脸识别方法，通过对于人员监控视频进行分析来实现对电梯内乘客的身份识别和行为分析，提高人脸识别的精准性，进而提高电梯的安全性和智能化水平。在此过程中，难点在于如何进行所述人员监控视频中关于电梯内人员的人脸特征信息的充分表达，以此来准确地进行电梯内人员的身份识别，从而有利于后续进行人员的行为分析，以判断该身份在电梯内的行为是否正常或异常，进而提高电梯的安全性和智能化水平。

近年来，深度学习以及神经网络已经广泛应用于计算机视觉、自然语言处理、文本信号处理等领域。深度学习以及神经网络的发展为挖掘所述人员监控视频中关于电梯内人员的人脸特征信息提供了新的解决思路和方案。

具体地，在本申请的技术方案中，首先，通过摄像头采集人员监控视频。接着，考虑到在所述人员监控视频中，每一帧都包含丰富的图像信息。但是，由于监控设备需要对大量视频数据进行存储和传输，使得视频数据非常庞大，并且所述人员监控视频中相邻帧的差异较小，存在大量数据冗余信息。因此，在本申请的技术方案中，进一步以预定采样频率对所述人员监控视频进行关键帧采样，以从所述人员监控视频提取多个人员监控关键帧，以此来有效地压缩视频数据，达到节省存储空间、提升处理效率的目的。此外，选择合适的关键帧还可以减少图像噪声和图像质量的影响，从而提高人脸识别的精度。

然后，利用深度学习的方法，如MTCNN（多任务卷积神经网络），对电梯内的所述各个人员监控关键帧进行人脸检测，得到每一帧中的人脸区域和置信度，即所述多组人脸检测区域候选框，其中，每组所述人脸检测区域候选框包含多个人脸检测区域候选框。具体地，MTCNN是一个级联网络，由三个网络构成：Proposal Network (P-net)，Refine Network(R-net)，Output Network (O-net)。应可以理解，MTCNN利用图像金字塔的方法，可以检测出不同大小和角度的人脸，并输出人脸的边界框和关键点。

进一步地，考虑到由于电梯内的人员可能会有进出、移动、遮挡等情况，因此需要对检测到的人脸进行跟踪，以维持人脸的连续性和一致性。因此，在本申请的技术方案中，进一步对所述多组人脸检测区域候选框进行人脸跟踪以得到对应于多个对象的多组人脸感兴趣区域候选框。特别地，在本申请的一个具体示例中，人脸跟踪可以采用卡尔曼滤波、粒子滤波、相关滤波等方法，根据人脸的位置、运动、表观等特征，预测和更新人脸的状态，并分配唯一的标识符。

接着，进一步考虑到由于对于跟踪到的每一个人脸，需要进行人脸识别，以判断该人脸是否属于已知的身份。因此，在本申请的技术方案中，使用在图像的隐特征提取方面具有优异表现的作为特征提取器的卷积神经网络模型作为编码器来进行所述各组人脸感兴趣区域候选框的隐含特征挖掘，以提取出所述各组人脸感兴趣区域候选框中关于各个人脸的隐含特征分布信息，从而得到人脸检测特征图。

进一步地，还考虑到由于电梯内人员人脸的尺寸、形态和分布等特征复杂多样,保留和传递浅层细节特征对提高算法分割准确率非常重要。在U-Net网络中,通过跳跃连接将编码器的特征信息直接传递到解码器,实现浅层特征与深层特征融合,补充解码器细节特征信息,但这种在同尺度之间特征直接传递的方式过于简单，没有对电梯内的空间人员人脸信息进行筛选,进而无法有效对电梯内人员的身份进行识别。因此，在本申请的技术方案中，进一步使用双向注意力机制模块来对所述人脸检测特征图进行处理以得到分类特征图。这样，能够充分利用上下文信息来增强电梯内人员人脸的特征响应和抑制背景特征响应。具体地，所述双向注意力模块分别从水平方向和垂直方向对整个人脸感兴趣区域候选框的注意力权重校准并获取复杂特征关系,从而能够从空间的全局特征中获取局部特征信息。

然后，将所述分类特征图通过分类器中进行分类处理，以得到用于表示身份标签的分类结果。也就是，在本申请的技术方案中，所述分类器的标签为电梯内人员的身份标签，其中，所述分类器通过软最大值函数来确定所述分类特征图属于哪个分类标签。因此，在得到所述分类结果后，可基于所述分类结果来进行电梯内人员的身份识别，从而提高电梯的安全性和智能化水平。

特别地，在本申请的技术方案中，考虑到所述人脸感兴趣区域候选框在图像维度上的各个位置表达图像语义，因此通过作为特征提取器的卷积神经网络模型得到的所述人脸检测特征图的特征矩阵表达图像语义特征，而通道维度表达单个对象在视频时序上的时序关联特征，因此所述人脸检测特征图的各个位置的特征值都具有相应的位置属性，由此，将所述人脸检测特征图通过双向注意力机制模块后，由于所述双向注意力机制模块进一步强化了注意力维度上的局部特征分布，也就更加强化了所述分类特征图的各个位置的特征值的相应的位置属性。

但是，在将所述分类特征图通过分类器进行分类时，需要将所述分类特征矩阵展开为特征向量，也就是，涉及到所述分类特征图的特征值的按位置聚合，因此，期望提升所述分类特征图的各个特征值在按位置聚合时对于所述分类特征图的原特征流形的表达效果。

基于此，本申请的申请人计算所述分类特征图的每个位置的特征值的位置信息图式场景注意力无偏估计因数，表示为：

；

其中

和/>

分别代表将二维实数和三维实数映射为一维实数的函数，例如，实现为非线性激活函数激活加权和加偏置的表示，/>

、/>

和/>

分别是所述分类特征图的宽度、高度和通道数，/>

为所述分类特征图的各个特征值/>

的坐标，例如，可以特征矩阵的任意顶点或者中心作为坐标原点，且/>

是所述分类特征图的所有特征值的全局均值。

这里，所述位置信息图式场景注意力无偏估计因数通过使用融合特征值相对于整体特征分布的高维空间位置的相对几何方向和相对几何距离的图式信息表示和高维特征本身的信息表示的更高阶的特征表达，来在特征值对整体特征分布的按位置聚合时进一步进行特征流形的形状信息聚合，以实现高维空间内的基于特征流形的各个子流形集合形状分布的场景几何的无偏估计，以准确表达特征图的流形形状的几何性质。这样，通过以所述位置信息图式场景注意力无偏估计因数对所述分类特征图的各个位置的特征值进行加权，就可以提升所述分类特征图的各个特征值在按位置聚合时对于所述分类特征图的原特征流形的表达效果，从而提升所述分类特征图通过分类器得到的分类结果的准确性。这样，能够准确地进行电梯内人员的身份识别，从而有利于后续进行人员的行为分析，以判断该身份在电梯内的行为是否正常或异常，进而提高电梯的安全性和智能化水平。

图1为根据本申请实施例的基于多移动目标的人脸识别方法的应用场景图。如图1所示，在该应用场景中，首先，获取由摄像头（例如，图1中所示意的C）采集的人员监控视频（例如，图1中所示意的D），然后，将所述人员监控视频输入至部署有基于多移动目标的人脸识别算法的服务器中（例如，图1中所示意的S），其中，所述服务器能够使用所述基于多移动目标的人脸识别算法对所述人员监控视频进行处理以得到用于表示身份标签的分类结果。

在介绍了本申请的基本原理之后，下面将参考附图来具体介绍本申请的各种非限制性实施例。

图2为根据本申请实施例的基于多移动目标的人脸识别方法的流程图。如图2所示，根据本申请实施例的基于多移动目标的人脸识别方法，包括步骤：S110，获取由摄像头采集的人员监控视频；S120，从所述人员监控视频提取多个人员监控关键帧；S130，分别对所述各个人员监控关键帧进行人脸检测以得到多组人脸检测区域候选框，其中，每组所述人脸检测区域候选框包含多个人脸检测区域候选框；S140，对所述多组人脸检测区域候选框进行人脸跟踪以得到对应于多个对象的多组人脸感兴趣区域候选框；S150，将每组所述人脸感兴趣区域候选框通过作为特征提取器的卷积神经网络模型以得到人脸检测特征图；S160，将所述人脸检测特征图通过双向注意力机制模块以得到分类特征图；S170，对所述分类特征图进行特征分布优化以得到优化分类特征图；以及，S180，将所述优化分类特征图通过分类器以得到分类结果，所述分类结果用于表示身份标签。

图3为根据本申请实施例的基于多移动目标的人脸识别方法的架构示意图。如图3所示，在该网络架构中，首先，获取由摄像头采集的人员监控视频；接着，从所述人员监控视频提取多个人员监控关键帧；然后，分别对所述各个人员监控关键帧进行人脸检测以得到多组人脸检测区域候选框，其中，每组所述人脸检测区域候选框包含多个人脸检测区域候选框；接着，对所述多组人脸检测区域候选框进行人脸跟踪以得到对应于多个对象的多组人脸感兴趣区域候选框；然后，将每组所述人脸感兴趣区域候选框通过作为特征提取器的卷积神经网络模型以得到人脸检测特征图；接着，将所述人脸检测特征图通过双向注意力机制模块以得到分类特征图；然后，对所述分类特征图进行特征分布优化以得到优化分类特征图；最后，将所述优化分类特征图通过分类器以得到分类结果，所述分类结果用于表示身份标签。

更具体地，在步骤S110中，获取由摄像头采集的人员监控视频。在实际进行电梯内的乘客身份识别过程中，可以对于监控视频中的各个乘客进行人脸识别，即对电梯内的视频帧进行人脸检测。

更具体地，在步骤S120中，从所述人员监控视频提取多个人员监控关键帧。考虑到在所述人员监控视频中，每一帧都包含丰富的图像信息。但是，由于监控设备需要对大量视频数据进行存储和传输，使得视频数据非常庞大，并且所述人员监控视频中相邻帧的差异较小，存在大量数据冗余信息。因此，在本申请的技术方案中，进一步以预定采样频率对所述人员监控视频进行关键帧采样，以从所述人员监控视频提取多个人员监控关键帧，以此来有效地压缩视频数据，达到节省存储空间、提升处理效率的目的。此外，选择合适的关键帧还可以减少图像噪声和图像质量的影响，从而提高人脸识别的精度。

更具体地，在步骤S130中，分别对所述各个人员监控关键帧进行人脸检测以得到多组人脸检测区域候选框，其中，每组所述人脸检测区域候选框包含多个人脸检测区域候选框。例如，可以利用深度学习的方法，对电梯内的所述各个人员监控关键帧进行人脸检测，得到每一帧中的人脸区域和置信度，即所述多组人脸检测区域候选框，其中，每组所述人脸检测区域候选框包含多个人脸检测区域候选框。

相应地，在一个具体示例中，分别对所述各个人员监控关键帧进行人脸检测以得到多组人脸检测区域候选框，其中，每组所述人脸检测区域候选框包含多个人脸检测区域候选框，包括：使用多任务卷积神经网络分别对所述各个人员监控关键帧进行人脸检测以得到所述多组人脸检测区域候选框。

更具体地，在步骤S140中，对所述多组人脸检测区域候选框进行人脸跟踪以得到对应于多个对象的多组人脸感兴趣区域候选框。由于电梯内的人员可能会有进出、移动、遮挡等情况，因此需要对检测到的人脸进行跟踪，以维持人脸的连续性和一致性。特别地，在本申请的一个具体示例中，人脸跟踪可以采用卡尔曼滤波、粒子滤波、相关滤波等方法，根据人脸的位置、运动、表观等特征，预测和更新人脸的状态，并分配唯一的标识符。

更具体地，在步骤S150中，将每组所述人脸感兴趣区域候选框通过作为特征提取器的卷积神经网络模型以得到人脸检测特征图。由于对于跟踪到的每一个人脸，需要进行人脸识别，以判断该人脸是否属于已知的身份。因此，在本申请的技术方案中，使用在图像的隐特征提取方面具有优异表现的作为特征提取器的卷积神经网络模型作为编码器来进行所述各组人脸感兴趣区域候选框的隐含特征挖掘，以提取出所述各组人脸感兴趣区域候选框中关于各个人脸的隐含特征分布信息，从而得到人脸检测特征图。

应可以理解，卷积神经网络(Convolutional Neural Network，CNN)是一种人工神经网络，在图像识别等领域有着广泛的应用。卷积神经网络可以包括输入层、隐藏层和输出层，其中，隐藏层可以包括卷积层、池化(pooling)层、激活层和全连接层等，上一层根据输入的数据进行相应的运算，将运算结果输出给下一层，输入的初始数据经过多层的运算之后得到一个最终的结果。

相应地，在一个具体示例中，将每组所述人脸感兴趣区域候选框通过作为特征提取器的卷积神经网络模型以得到人脸检测特征图，包括：所述作为特征提取器的卷积神经网络模型的各层在层的正向传递中对输入数据分别进行如下处理：对输入数据进行卷积处理以得到卷积特征图；对所述卷积特征图进行均值池化处理以得到池化特征图；以及对所述池化特征图进行非线性激活以得到激活特征图；其中，所述作为特征提取器的卷积神经网络模型的最后一层的输出为所述人脸检测特征图，所述作为特征提取器的卷积神经网络模型的第一层的输入为每组所述人脸感兴趣区域候选框。

更具体地，在步骤S160中，将所述人脸检测特征图通过双向注意力机制模块以得到分类特征图。考虑到由于电梯内人员人脸的尺寸、形态和分布等特征复杂多样,保留和传递浅层细节特征对提高算法分割准确率非常重要。在U-Net网络中,通过跳跃连接将编码器的特征信息直接传递到解码器,实现浅层特征与深层特征融合,补充解码器细节特征信息,但这种在同尺度之间特征直接传递的方式过于简单，没有对电梯内的空间人员人脸信息进行筛选,进而无法有效对电梯内人员的身份进行识别。因此，在本申请的技术方案中，进一步使用双向注意力机制模块来对所述人脸检测特征图进行处理以得到分类特征图。这样，能够充分利用上下文信息来增强电梯内人员人脸的特征响应和抑制背景特征响应。

具体地，所述双向注意力模块分别从水平方向和垂直方向对整个人脸感兴趣区域候选框的注意力权重校准并获取复杂特征关系,从而能够从空间的全局特征中获取局部特征信息。

相应地，在一个具体示例中，如图4所示，将所述人脸检测特征图通过双向注意力机制模块以得到分类特征图，包括：S161，对所述人脸检测特征图进行沿通道维度的全局均值池化以得到全局池化特征矩阵；S162，将所述全局池化特征矩阵分别沿着水平方向和垂直方向进行池化以得到第一向池化向量和第二向池化向量；S163，对所述第一向池化向量和所述第二向池化向量进行关联编码以得到双向关联矩阵；S164，将所述双向关联矩阵输入Sigmoid激活函数以得到双向关联权重矩阵；以及，S165，计算所述双向关联权重矩阵和所述人脸检测特征图的沿通道维度的各个特征矩阵之间的按位置点乘以得到所述分类特征图。

更具体地，在步骤S170中，对所述分类特征图进行特征分布优化以得到优化分类特征图。特别地，在本申请的技术方案中，考虑到所述人脸感兴趣区域候选框在图像维度上的各个位置表达图像语义，因此通过作为特征提取器的卷积神经网络模型得到的所述人脸检测特征图的特征矩阵表达图像语义特征，而通道维度表达单个对象在视频时序上的时序关联特征，因此所述人脸检测特征图的各个位置的特征值都具有相应的位置属性，由此，将所述人脸检测特征图通过双向注意力机制模块后，由于所述双向注意力机制模块进一步强化了注意力维度上的局部特征分布，也就更加强化了所述分类特征图的各个位置的特征值的相应的位置属性。但是，在将所述分类特征图通过分类器进行分类时，需要将所述分类特征矩阵展开为特征向量，也就是，涉及到所述分类特征图的特征值的按位置聚合，因此，期望提升所述分类特征图的各个特征值在按位置聚合时对于所述分类特征图的原特征流形的表达效果。基于此，本申请的申请人计算所述分类特征图的每个位置的特征值的位置信息图式场景注意力无偏估计因数。

相应地，在一个具体示例中，对所述分类特征图进行特征分布优化以得到优化分类特征图，包括：以如下优化公式计算所述分类特征图中各个位置特征值的位置信息图式场景注意力无偏估计因数以得到所述多个位置信息图式场景注意力无偏估计因数；其中，所述优化公式为：

；

其中，

是所述分类特征图中各个位置特征值，/>

为所述分类特征图的各个位置特征值的位置坐标，且/>

是所述分类特征图的所有特征值的全局均值，/>

和

分别代表将二维实数和三维实数映射为一维实数的函数，/>

、/>

和/>

分别是所述分类特征图的宽度、高度和通道数，/>

表示以2为底的对数函数，/>

更具体地，在步骤S180中，将所述优化分类特征图通过分类器以得到分类结果，所述分类结果用于表示身份标签。在得到所述分类结果后，可基于所述分类结果来进行电梯内人员的身份识别，从而提高电梯的安全性和智能化水平。

应可以理解，分类器的作用是利用给定的类别、已知的训练数据来学习分类规则和分类器，然后对未知数据进行分类（或预测）。逻辑回归（logistics）、SVM等常用于解决二分类问题，对于多分类问题（multi-class classification），同样也可以用逻辑回归或SVM，只是需要多个二分类来组成多分类，但这样容易出错且效率不高，常用的多分类方法有Softmax分类函数。

相应地，在一个具体示例中，如图5所示，将所述优化分类特征图通过分类器以得到分类结果，所述分类结果用于表示身份标签，包括：S181，将所述优化分类特征图按照行向量展开为优化分类特征向量；S182，使用所述分类器的全连接层对所述优化分类特征向量进行全连接编码以得到编码分类特征向量；以及，S183，将所述编码分类特征向量输入所述分类器的Softmax分类函数以得到所述分类结果。

综上，基于本申请实施例的基于多移动目标的人脸识别方法，其首先从由摄像头采集的人员监控视频提取多个人员监控关键帧，接着，分别对所述各个人员监控关键帧进行人脸检测以得到多组人脸检测区域候选框，然后，对所述多组人脸检测区域候选框进行人脸跟踪以得到对应于多个对象的多组人脸感兴趣区域候选框，接着，将每组所述人脸感兴趣区域候选框通过卷积神经网络模型以得到人脸检测特征图，然后，将所述人脸检测特征图通过双向注意力机制模块以得到分类特征图，最后，对所述分类特征图进行特征分布优化后通过分类器以得到用于表示身份标签的分类结果。这样，可以提高安全性和智能化水平。

进一步地，本申请的技术方案，还提供一种存储介质，所述存储介质中存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行前述任一项所述的基于多移动目标的人脸识别方法。

图6为根据本申请实施例的基于多移动目标的人脸识别系统100的框图。如图6所示，根据本申请实施例的基于多移动目标的人脸识别系统100，包括：视频采集模块110，用于获取由摄像头采集的人员监控视频；关键帧提取模块120，用于从所述人员监控视频提取多个人员监控关键帧；人脸检测模块130，用于分别对所述各个人员监控关键帧进行人脸检测以得到多组人脸检测区域候选框，其中，每组所述人脸检测区域候选框包含多个人脸检测区域候选框；人脸跟踪模块140，用于对所述多组人脸检测区域候选框进行人脸跟踪以得到对应于多个对象的多组人脸感兴趣区域候选框；特征提取模块150，用于将每组所述人脸感兴趣区域候选框通过作为特征提取器的卷积神经网络模型以得到人脸检测特征图；双向注意力编码模块160，用于将所述人脸检测特征图通过双向注意力机制模块以得到分类特征图；特征分布优化模块170，用于对所述分类特征图进行特征分布优化以得到优化分类特征图；以及，分类模块180，用于将所述优化分类特征图通过分类器以得到分类结果，所述分类结果用于表示身份标签。

在一个示例中，在上述基于多移动目标的人脸识别系统100中，所述人脸检测模块130，用于：使用多任务卷积神经网络分别对所述各个人员监控关键帧进行人脸检测以得到所述多组人脸检测区域候选框。

在一个示例中，在上述基于多移动目标的人脸识别系统100中，所述特征提取模块150，用于：所述作为特征提取器的卷积神经网络模型的各层在层的正向传递中对输入数据分别进行：对输入数据进行卷积处理以得到卷积特征图；对所述卷积特征图进行均值池化处理以得到池化特征图；以及，对所述池化特征图进行非线性激活以得到激活特征图；其中，所述作为特征提取器的卷积神经网络模型的最后一层的输出为所述人脸检测特征图，所述作为特征提取器的卷积神经网络模型的第一层的输入为每组所述人脸感兴趣区域候选框。

在一个示例中，在上述基于多移动目标的人脸识别系统100中，所述双向注意力编码模块160，用于：对所述人脸检测特征图进行沿通道维度的全局均值池化以得到全局池化特征矩阵；将所述全局池化特征矩阵分别沿着水平方向和垂直方向进行池化以得到第一向池化向量和第二向池化向量；对所述第一向池化向量和所述第二向池化向量进行关联编码以得到双向关联矩阵；将所述双向关联矩阵输入Sigmoid激活函数以得到双向关联权重矩阵；以及，计算所述双向关联权重矩阵和所述人脸检测特征图的沿通道维度的各个特征矩阵之间的按位置点乘以得到所述分类特征图。

在一个示例中，在上述基于多移动目标的人脸识别系统100中，所述特征分布优化模块170，用于：以如下优化公式计算所述分类特征图中各个位置特征值的位置信息图式场景注意力无偏估计因数以得到所述多个位置信息图式场景注意力无偏估计因数；其中，所述优化公式为：

；

其中，

是所述分类特征图中各个位置特征值，/>

为所述分类特征图的各个位置特征值的位置坐标，且/>

是所述分类特征图的所有特征值的全局均值，/>

和

分别代表将二维实数和三维实数映射为一维实数的函数，/>

、/>

和/>

分别是所述分类特征图的宽度、高度和通道数，/>

表示以2为底的对数函数，/>

在一个示例中，在上述基于多移动目标的人脸识别系统100中，所述分类模块180，用于：将所述优化分类特征图按照行向量展开为优化分类特征向量；使用所述分类器的全连接层对所述优化分类特征向量进行全连接编码以得到编码分类特征向量；以及，将所述编码分类特征向量输入所述分类器的Softmax分类函数以得到所述分类结果。

这里，本领域技术人员可以理解，上述基于多移动目标的人脸识别系统100中的各个模块的具体功能和操作已经在上面参考图1到图5的基于多移动目标的人脸识别方法的描述中得到了详细介绍，并因此，将省略其重复描述。

如上所述，根据本申请实施例的基于多移动目标的人脸识别系统100可以实现在各种无线终端中，例如具有基于多移动目标的人脸识别算法的服务器等。在一个示例中，根据本申请实施例的基于多移动目标的人脸识别系统100可以作为一个软件模块和/或硬件模块而集成到无线终端中。例如，该基于多移动目标的人脸识别系统100可以是该无线终端的操作系统中的一个软件模块，或者可以是针对于该无线终端所开发的一个应用程序；当然，该基于多移动目标的人脸识别系统100同样可以是该无线终端的众多硬件模块之一。

替换地，在另一示例中，该基于多移动目标的人脸识别系统100与该无线终端也可以是分立的设备，并且该基于多移动目标的人脸识别系统100可以通过有线和/或无线网络连接到该无线终端，并且按照约定的数据格式来传输交互信息。

根据本申请的另一方面，还提供了一种非易失性的计算机可读存储介质，其上存储有计算机可读的指令，当利用计算机执行所述指令时可以执行如前所述的方法。

技术中的程序部分可以被认为是以可执行的代码和/或相关数据的形式而存在的“产品”或“制品”，通过计算机可读的介质所参与或实现的。有形的、永久的储存介质可以包括任何计算机、处理器、或类似设备或相关的模块所用到的内存或存储器。例如，各种半导体存储器、磁带驱动器、磁盘驱动器或者类似任何能够为软件提供存储功能的设备。

所有软件或其中的一部分有时可能会通过网络进行通信，如互联网或其他通信网络。此类通信可以将软件从一个计算机设备或处理器加载到另一个。例如：从视频目标检测设备的一个服务器或主机计算机加载至一个计算机环境的硬件平台，或其他实现系统的计算机环境，或与提供目标检测所需要的信息相关的类似功能的系统。因此，另一种能够传递软件元素的介质也可以被用作局部设备之间的物理连接，例如光波、电波、电磁波等，通过电缆、光缆或者空气等实现传播。用来载波的物理介质如电缆、无线连接或光缆等类似设备，也可以被认为是承载软件的介质。在这里的用法除非限制了有形的“储存”介质，其他表示计算机或机器“可读介质”的术语都表示在处理器执行任何指令的过程中参与的介质。

本申请使用了特定词语来描述本申请的实施例。如“第一/第二实施例”、“一实施例”、和/或“一些实施例”意指与本申请至少一个实施例相关的某一特征、结构或特点。因此，应强调并注意的是，本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一替代性实施例”并不一定是指同一实施例。此外，本申请的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。

此外，本领域技术人员可以理解，本申请的各方面可以通过若干具有可专利性的种类或情况进行说明和描述，包括任何新的和有用的工序、机器、产品或物质的组合，或对他们的任何新的和有用的改进。相应地，本申请的各个方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“系统”。此外，本申请的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品，该产品包括计算机可读程序编码。

除非另有定义，这里使用的所有术语(包括技术和科学术语)具有与本发明所属领域的普通技术人员共同理解的相同含义。还应当理解，诸如在通常字典里定义的那些术语应当被解释为具有与它们在相关技术的上下文中的含义相一致的含义，而不应用理想化或极度形式化的意义来解释，除非这里明确地这样定义。

上面是对本发明的说明，而不应被认为是对其的限制。尽管描述了本发明的若干示例性实施例，但本领域技术人员将容易地理解，在不背离本发明的新颖教学和优点的前提下可以对示例性实施例进行许多修改。因此，所有这些修改都意图包含在权利要求书所限定的本发明范围内。应当理解，上面是对本发明的说明，而不应被认为是限于所公开的特定实施例，并且对所公开的实施例以及其他实施例的修改意图包含在所附权利要求书的范围内。本发明由权利要求书及其等效物限定。