CN111860165A

CN111860165A - 一种基于视频流的动态人脸识别方法和装置

Info

Publication number: CN111860165A
Application number: CN202010559367.2A
Authority: CN
Inventors: 聂芸芸; 夏炉系; 郭沛; 张浒; 许金金; 王东; 苗应亮
Original assignee: Maxvision Technology Corp
Current assignee: Maxvision Technology Corp
Priority date: 2020-06-18
Filing date: 2020-06-18
Publication date: 2020-10-30
Anticipated expiration: 2040-06-18
Also published as: CN111860165B

Abstract

本发明公开了一种基于视频流的动态人脸识别方法和装置。方法包括：对训练视频流进行样本采集，得到人脸图像训练样本；将人脸图像训练样本送入神经网络中进行训练，每个人脸图像训练样本训练得到一个多维特征向量，将所述多维特征向量进行归一化，并将属于同一个人的K个多维特征向量聚合为一个特征向量；利用聚合得到的特征向量，对未知视频流进行人脸识别。本发明方法识别精度更高，误识率更低，样本利用率更高，并可以改善假脸攻击问题。

Description

一种基于视频流的动态人脸识别方法和装置

技术领域

本发明涉及人脸识别技术领域，具体涉及一种基于视频流的动态人脸识别方法和装置。

背景技术

人脸识别不仅是人工智能领域的研究热点，在公共安全领域，其研究也有着重要的现实意义。基于单帧图像的人脸识别技术通常包括人脸图像样本采集、样本图像预处理、分类器训练和样本识别等技术环节。人脸图像样本采集是人脸识别的基石，其意义不言而喻。人脸识别样本采集工作以往都是基于图像的方式，比如，不同人在不同姿态、光照、表情等差异下利用手机、普通摄像机等进行不同角度自拍，最后进行人脸样本图片清洗、整理工作。样本图像预处理包括人脸检测、人脸关键点检测、人脸对齐矫正等步骤。人脸检测就是将人脸识别样本中的人脸区域检测出来，用于人脸关键点检测，通过人脸关键点检测将不同姿态人脸样本进行对齐矫正。分类器训练是基于端到端的深度神经网络，将不同人的所有人脸样本分为不同的类别。样本识别就是对未知样本进行类别预测与验证。

目前基于单帧图像的人脸识别系统已经很普遍，但由于误识别较多因此识别精度受限，同时基于单帧图像的人脸识别也无法解决“真人图片攻击”、“视频回放”、“面具攻击”防伪问题。

发明内容

本发明的目的在于针对现有人脸识别方法识别精度低、误识多等问题，提供一种基于视频流的动态人脸识别方法，该方法具有更高的识别精度，更低的错误识别率，以及更高的样本利用率。本发明的目的还在于提供一种视频流的动态人脸识别装置。

为实现上述发明目的，本发明采用如下技术方案。

第一方面，提供一种基于视频流的动态人脸识别方法，包括：S1、对训练视频流进行样本采集，得到人脸图像训练样本；S2、将人脸图像训练样本送入神经网络中进行训练，每个人脸图像训练样本训练得到一个多维的特征向量，将所述多维特征向量进行归一化，并将属于同一个人的K个多维特征向量聚合为一个特征向量，通过将聚合得到的特征向量进行分类器训练得到分类模型，将不同人的所有人脸样本分为不同的类别；S3、利用聚合得到的特征向量，对未知视频流进行人脸识别。

一种可能的实现方式中，步骤S1还包括：对人脸图像训练样本进行分类清洗，使得属于同一个人的人脸图像训练样本被置于同一子集。

一种可能的实现方式中，步骤S2之前还包括：对人脸图像训练样本进行人脸检测、人脸关键点检测和人脸对齐矫正。

一种可能的实现方式中，所述将属于同一个人的K个多维特征向量聚合为一个特征向量，包括：通过对属于同一个人的K个多维特征向量按照不同权值分配进行线性组合，将K个特征向量聚合为一个特征向量。

一种可能的实现方式中，步骤S2具体包括：

针对每个人脸图像训练样本获得一个512维的特征向量Fⁱ _k，i＝1,2,…,n，n为总人数，i表示其中第i个人，k＝1,2,…,K_i，K_i为第i个人的人脸图像训练样本的总个数，k表示其中第k个人脸图像训练样本；

经过L2范数对得到的特征向量

进行归一化；

将归一化后的、同一个人的K个特征向量

聚合为一个特征向量，表示为：

其中，

是线性权值因子。

一种可能的实现方式中，线性权值因子

通过以下公式计算获得：

其中，

是每个特征向量与核滤波器q点积所产生的权重因子，q是一个通过神经网络学习所得到的512*512的矩阵。

一种可能的实现方式中，所述对未知视频流进行人脸识别之前，还包括：对未知视频流进行样本采集，样本采集过程包括：从未知视频流包含的P帧图像中依次采集连续K帧图像，P>K，得到P-K+1个图像集合，每个图像集合包括同一人脸的K个人脸图像测试样本；对人脸图像测试样本进行预处理；将样本采集的所有ID的人脸数据集合输入神经网络中进行训练，每一个ID图像集合经过特征融合都会得到对应的一个特征向量。

一种可能的实现方式中，步骤S3具体包括：建立人脸注册数据库：通过将分别属于m个人的m个聚合得到的特征向量作为注册特征向量，建立人脸注册数据库；通过计算测试特征向量与注册特征向量的相似度，进行人脸识别。

一种可能的实现方式中，所述通过计算测试特征向量与注册特征向量的相似度，进行人脸识别，包括：

将P-K+1个测试特征向量分别与人脸注册数据库中的目标注册特征向量进行余弦相似度计算，获得对应的相似度集合，如果该相似度集合中的最大值大于阈值，则表示识别正确；

或者，

将P-K+1个测试特征向量分别与m个注册特征向量依次进行余弦相似度计算，对获得的所有相似度进行排序，如果所有相似度中的最大值是某个测试特征向量与目标注册特征向量计算的相似度，且该最大值大于阈值，则表示识别正确。

第二方面，提供一种基于视频流的动态人脸识别装置，包括：

样本采集模块，用于对训练视频流进行样本采集，得到人脸图像训练样本；

人脸识别特征融合训练模块，用于将人脸图像训练样本送入神经网络中进行训练，每个人脸图像训练样本训练得到一个多维特征向量，将所述多维特征向量进行归一化，并将属于同一个人的K个多维特征向量聚合为一个特征向量；

识别模块，用于利用聚合得到的特征向量，对未知视频流进行人脸识别。

第三方面，还提供一种计算机设备，包括处理器和存储器，存储器中存储有计算机可执行的程序，处理器通过执行存储器中存储的程序，执行如第一方面所述的基于视频流的动态人脸识别方法。

第四方面，还提供一种存储有程序的存储介质，该程序当被计算机设备执行时使得计算机设备执行如第一方面所述的基于视频流的动态人脸识别方法。

从以上技术方案可以看出，本发明实施例具有以下优点：

为了降低误识别率，提高人脸识别精度，并且改善假脸攻击问题，本发明提供了一种基于视频流的动态人脸识别方法。该方法在分类器训练步骤，增加了一个多特征聚合环节，将连续的单帧图像提取的人脸特征进行聚合，从而在样本识别阶段利用聚合得到的特征向量进行人脸识别。基于此，与现有的基于单帧图像的人脸识别方法相比，本发明方法识别精度更高，误识率更低，可以改善假脸攻击问题。并且，与基于单帧图像的人脸识别算法相比，本发明方法还减轻了人脸识别样本的整理难度，由于低质量的或大角度的人脸识别样本也是较为重要的样本，因此提高了人脸识别样本的利用率。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍。

图1是本发明实施例中一种基于视频流的动态人脸识别方法的流程示意图；

图2是本发明实施例中利用pytorch深度学习框架实现聚合层示意图；

图3是本发明实施例中一种基于视频流的动态人脸识别装置的结构示意图；

图4是本发明实施例中一种计算机设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别不同的对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

下面通过具体实施例，进行详细的说明。

请参考图1，本发明实施例，提供一种基于视频流的动态人脸识别方法。本发明的方法可基于由Linux系统和pytorch深度学习框架构成的平台来实现。与基于单帧图像的人脸识别技术类似，本发明方法同样可包括样本采集、预处理、分类器训练和样本识别等步骤。本发明实施例方法主要可包括：

S1、样本采集步骤：本步骤可利用摄像设备拍摄或者通过网络或其它方式获取作为训练样本的视频流(训练视频流)，通过对训练视频流进行样本采集，即，从训练视频流中采集单帧图像，获取大量的人脸图像训练样本。且可选的，本步骤还可以包括：将数据(即人脸图像训练样本)进行分类清洗，最终使得同一个人的人脸图像训练样本被置于同一子集，所述同一子集例如是同一文件夹，即每个文件夹属于同一个类别。

可选的，样本采集步骤之后还包括预处理步骤：本步骤对上一步骤采集整理完毕的人脸图像训练样本进行规范化预处理，包括：人脸检测、人脸关键点检测以及人脸对齐矫正。可选的，预处理步骤还可包括人脸质量评估子步骤，用于过滤掉低质量的人脸图像训练样本，以减少误识现象，相对提高识别精度。

S2、分类器训练步骤：本步骤将预处理后的人脸图像训练样本送入神经网络，例如普通的卷积神经网络(CNN)中进行训练，经过训练后每个人的每个人脸图像训练样本可获得一个多维特征向量，例如512维的特征向量，经过L2范数对多维特征向量进行归一化，再通过聚合层的聚合模块(Aggregation Module)，将同一个人的K个多维特征向量聚合为一个特征向量，K为正整数。

可选的，聚合模块可以对K个多维特征向量按照不同权值分配进行线性组合，最终将K个多维特征向量聚合为一个特征向量，聚合后仍然得到一个512维的特征向量，其中，权值因子可通过神经网络分类器训练得到。

如上，本发明方法在普通人脸识别分类步骤增加一个多特征聚合环节，利用聚合模块将连续的单帧图像(单个人脸图像训练样本)提取的多维特征向量聚合一个特征向量。即，通过将相同人的不同姿态特征按照某种方式进行聚合再送入分类器训练，将不同人的所有人脸样本分为不同的类别。

S3、人脸识别步骤(即，样本识别步骤)：本步骤利用上一步骤聚合得到的特征向量，对未知视频流进行人脸识别。

识别之前，类似于对训练视频流的处理流程，可对未知视频流进行如上所述的样本采集、预处理和分类器训练步骤。经样本采集步骤得到人脸图像测试样本，经分类器训练步骤对预处理后的人脸图像测试样本进行训练，得到描述待识别的人脸的多维特征向量，并且，同样的，对待识别的每个人的K个多维特征向量进行聚合得到一个聚合后的特征向量，本文称为测试特征向量。

接下来，识别过程可具体包括：首先，建立人脸注册数据库，通过将分别属于m个人的m个聚合得到的特征向量作为注册特征向量，建立人脸注册数据库，m为正整数；然后，通过计算测试特征向量与注册特征向量的相似度，进行人脸识别。计算相似度进行人脸识别的方式可以有两种，即，按照1:1与1：m两种。1:1的方式是，将任一测试特征向量与人脸注册数据库中的目标注册特征向量进行相似度计算。1：m的方式是，将任一测试特征向量与人脸注册数据库中的全部注册特征向量进行相似度计算。

下面，通过一个具体的应用场景实施例，对本发明方法做进一步说明。

本实施例中，假设人脸识别训练任务的训练视频流有n段视频序列，用(S_i,y_i)_i ⁿ _＝1表示，n为正整数。其中，S_i表示第i个人脸视频序列，y_i为真实标签；i表示第i个人，共有n个人。

k表示第k帧图像，xⁱ _k为视频中的第k帧图像，共有K_i帧图像。其中，每帧图像即为一个人脸图像训练样本。

在分类器训练步骤中，经过普通CNN网络训练后，假设每个人的每个人脸图像训练样本获得一个512维的特征向量Fⁱ _k，经过L2范数对特征向量Fⁱ _k进行归一化，再通过聚合模块将归一化后的、同一个人的K个特征向量Fⁱ _k聚合为一个特征向量。聚合得到的特征向量可表示为：

其中，aⁱ _k模块为一个视频序列的K个特征向量的线性权值因子。

进一步的，线性权值因子aⁱ _k可通过下列公式获得，

其中，eⁱ _k是每个特征向量与核滤波器q点积所产生的权重因子，可以表示为：

其中，q是一个512*512的矩阵，可通过深度神经网络学习所得到。

其中，

如果

表示平均池化，即K个特征向量的线性权值因子相等。

如图2所示，是利用pytorch深度学习框架实现聚合层示意图：

Block1：

Block2：

Q₁与Q₂为核矩阵512*512，b₁与b₂为偏置项，这些参数均由神经网络学习得到，tanh为激活函数。

通过这种聚合操作之后，K个512维度的特征向量变成一个512维度的特征向量。利用这种方法进行分类器训练，最终对未知视频流进行预测与验证。

本实施例中，进行人脸识别的步骤可包括：

首先，建立人脸注册库，假设有m个人，每个人有K个人脸图像训练样本，将这m个人的样本:输入人脸识别特征融合模型得到m个512维度的注册特征向量{f₀,f₁,f₂,.....,f_m-1}，标签为(0,1,2，.....,m-1)，建立起人脸注册库。

然后，通过计算测试特征向量与注册特征向量的相似度，进行人脸测试识别，测试方式分为1:1与1：m两种。

一、1:1测试：

假设测试一段未知视频流，该未知视频流的人脸序列表示为{x₀,x₁,x₂,...x_k,...x_P-1}(P>k)。其中，x₀表示视频的第0帧图像，x₁表示视频的第1帧图像,......。

首先，对该未知视频流进行样本采集，样本采集过程包括：以某一个特定ID＝2的图像采集为例，将一段包含此ID人脸的视频进行解帧处理，得到P帧图像，从中任意抽取K帧，通过排列组合计算得到ID＝2的P-K+1个图像集。

然后，对人脸图像测试样本进行预处理；

然后，将ID＝2的图像集合送入已经训练好的网络模型中，每个子集合经过特征聚合计算得到一个特征向量，这样就获得(P-K+1)个测试特征向量，表示为{t₀,t₁,.....,t_p-k+1}。

将这些测试特征向量分别与m个512维度的注册特征向量中标签为2的目标注册特征向量f₂进行余弦相似度计算，获得对应相似度集合{s_j2}_j＝0 ^m-1(j>＝0且j<＝m-1)，如果该相似度集合中的最大值max{s_j2}大于预先设定的相似度阈值T，则表示识别正确，即，该未知视频流的人脸与标签为2的注册特征向量表示的人脸属于同一人。

二、1：m测试：

首先，对该未知视频流进行样本采集，样本采集过程包括：以某一个特定的ID＝3的图像采集为例，从未知视频流中抽取此ID的P帧图像，再从中随机选出K帧图像，通过排列组合计算可以得到P-K+1个图像集合。

然后，对人脸图像测试样本进行预处理；

然后，将ID＝3的图像集合送入已经训练好的神经网络中，每个子集合经过特征聚合计算得到一个特征向量，这样就获得(P-K+1)个测试特征向量，表示为{t₀,t₁,.....,t_p-k+1}。

将这些测试特征向量分别与m个512维度的注册特征向量中每个特征向量依次进行余弦相似度计算，获得对应相似度{s_ij}，(j>＝0且j<＝m-1，i>＝0且i<＝P-K+1)，对{sij}进行升序排序。如果max{s_ij}包含于{S_i3}，且max{s_ij}相似度大于预先设定的相似度阈值T，则表示识别正确。换句话说，如果所有相似度中的最大值是某个测试特征向量与目标注册特征向量计算的相似度，且该最大值大于阈值，则表示识别正确，即，该未知视频流的人脸与标签为3的注册特征向量表示的人脸属于同一人。

经过上述过程，得到训练好的模型，将多帧图像输入该模型即可进行识别。

请参考图3，本发明的一个实施例，还提供一种基于视频流的动态人脸识别装置，该装置可包括：

样本采集模块10，用于对训练视频流进行样本采集，得到人脸图像训练样本；

人脸识别特征融合训练模块30，用于将人脸图像训练样本送入神经网络中进行训练，每个人脸图像训练样本训练得到一个多维特征向量，将得到的所述多维特征向量进行归一化，并将属于同一个人的K个多维特征向量聚合为一个特征向量；

识别模块40，用于利用聚合得到的特征向量，对未知视频流进行人脸识别。

可选的，还包括：预处理模块20，用于对样本采集模块10采集得到的人脸图像训练样本进行预处理，经预处理后的人脸图像训练样本送入人脸识别特征融合训练模块30中进行训练。

可以理解，本发明实施例装置的各个功能模块的功能可根据上述方法实施例中的方法具体实现，其具体实现过程可参照上述方法实施例中的相关描述，此处不再赘述。

请参考图4，本发明的一个实施例，还提供一种计算机设备50，包括处理器51和存储器52，存储器52中存储有计算机可执行的程序，处理器51通过执行存储器52中存储的程序，执行如第一方面所述的基于视频流的动态人脸识别方法。

本发明的一个实施例，还提供一种存储有程序的存储介质，该程序当被计算机设备执行时使得计算机设备执行如第一方面所述的基于视频流的动态人脸识别方法。

综上，人防门实施例公开了一种基于视频流的动态人脸识别方法和装置。从以上技术方案可以看出，本发明实施例具有以下优点：

为了降低误识别率，提高人脸识别精度，并且改善假脸攻击问题，本发明提供了一种基于视频流的动态人脸识别方法。该方法在人脸识别特征融合训练中增加了一个多特征聚合环节，将连续的单帧图像提取的人脸特征进行聚合，从而在样本识别阶段利用聚合得到的特征向量进行人脸识别。基于此，与现有的基于单帧图像的人脸识别方法相比，本发明方法识别精度更高，误识率更低，可以改善假脸攻击问题。并且，与基于单帧图像的人脸识别算法相比，本发明方法还减轻了人脸识别样本的整理难度，由于低质量的或大角度的人脸识别样本也是较为重要的样本，因此提高了人脸识别样本的利用率。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详细描述的部分，可以参见其它实施例的相关描述。

上述实施例仅用以说明本发明的技术方案，而非对其限制；本领域的普通技术人员应当理解：其依然可以对上述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。