CN113408348B

CN113408348B - 一种基于视频的人脸识别方法、装置及存储介质

Info

Publication number: CN113408348B
Application number: CN202110529827.1A
Authority: CN
Inventors: 蔡晓东; 周美欣
Original assignee: Guilin University of Electronic Technology
Current assignee: Guilin University of Electronic Technology
Priority date: 2021-05-14
Filing date: 2021-05-14
Publication date: 2022-08-19
Anticipated expiration: 2041-05-14
Also published as: CN113408348A

Abstract

本发明提供一种基于视频的人脸识别方法、装置及存储介质，方法包括：导入视频数据集,视频数据集包括多个视频数据；分别对各个视频数据进行转换，得到与各个视频数据对应的多个视频帧；分别对各个视频帧进行特征提取，得到与视频帧对应的人脸特征向量和权重，并集合所有的人脸特征向量得到人脸特征向量集；对人脸特征向量集和所有的权重进行评价分析，得到最优特征向量，并将最优特征向量作为人脸识别结果。本发明避免了噪声样本的干扰，且无需参考评估和额外的训练评估模型,简化了处理步骤，减少了对数据数量的依赖性，实现了识别结果与特征表达能力相关，提高了在视频中进行人脸识别的准确性。

Description

一种基于视频的人脸识别方法、装置及存储介质

技术领域

本发明主要涉及图像处理技术领域，具体涉及一种基于视频的人脸识别方法、装置及存储介质。

背景技术

基于图像的人脸识别技术已经取得很大的进展，目前的算法在LFW数据集上已经获得接近100％的准确率，但基于视频的人脸识别效果依然不是很理想。考虑到某些应用场景无法对识别目标进行约束，直接提取人脸视频的某一帧进行识别并不能获得很好的效果，因此视频人脸识别具有较强的应用价值。相对于传统的特征提取方法，基于卷积神经网络的人脸特征提取方法能获得更加具有判别性的特征信息，而如何表征一组而不是一张人脸图像的特征是视频人脸识别的关键。

视频人脸识别可以被看成一个特征融合过程，最为常见的特征融合策略有最大池化、平均池化与分数池化。前两种方法是基于特征值的融合，后一种方法是基于特征值比对结果的融合。虽然这三种方法易于实现，却无法处理人脸的姿势和光照变换等问题。用于人脸验证和聚类的嵌入媒体池化方法，在平均池化方法的基础上加入了媒体编号信息，但这个方法只适用于IJB-A数据集，缺乏泛化能力。在深度学习特征上使用一组到一组距离度量的无约束人脸识别在平均池化方法的基础上提出了K近邻平均池化方法。该方法在特征比对过程中只考虑最相似目标的分数，这样能拉近类内特征距离，但同时也拉近了类间特征距离，容易受到噪声样本干扰，故该方法在单个视频人脸图像帧数较多的YTF数据集和IQIYI数据集上未能取得满意的效果，同时，现有技术大多数都需要进行参考评估，且还需要额外训练评估模型。

发明内容

本发明所要解决的技术问题是针对现有技术的不足，提供一种基于视频的人脸识别方法、装置及存储介质。

本发明解决上述技术问题的技术方案如下：一种基于视频的人脸识别方法，包括如下步骤：

导入视频数据集,所述视频数据集包括多个视频数据；

分别对各个所述视频数据进行转换，得到与所述视频数据对应的多个视频帧；

分别对各个所述视频帧进行特征提取，得到与各个所述视频帧对应的人脸特征向量和权重，并集合所有的人脸特征向量得到人脸特征向量集；

对所述人脸特征向量集和所有的权重进行评价分析，得到最优特征向量，并将所述最优特征向量作为人脸识别结果。

本发明解决上述技术问题的另一技术方案如下：一种基于视频的人脸识别装置，包括：

数据集导入模块，用于导入视频数据集,所述视频数据集包括多个视频数据；

数据转换模块，用于分别对各个所述视频数据进行转换，得到与所述视频数据对应的多个视频帧；

特征提取模块，用于分别对各个所述视频帧进行特征提取，得到与各个所述视频帧对应的人脸特征向量和权重，并集合所有的人脸特征向量得到人脸特征向量集；

识别结果获得模块，用于对所述人脸特征向量集和所有的权重进行评价分析，得到最优特征向量，并将所述最优特征向量作为人脸识别结果。

本发明解决上述技术问题的另一技术方案如下：一种基于视频的人脸识别装置，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，当所述处理器执行所述计算机程序时，实现如上所述的基于视频的人脸识别方法。

本发明解决上述技术问题的另一技术方案如下：一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，当所述计算机程序被处理器执行时，实现如上所述的基于视频的人脸识别方法。

本发明的有益效果是：通过对各个视频数据的转换得到多个视频帧，分别对各个视频帧的特征提取得到人脸特征向量集和权重，对人脸特征向量集和所有的权重的评价分析得到人脸识别结果，避免了噪声样本的干扰，且无需参考评估和额外的训练评估模型,简化了处理步骤，减少了对数据数量的依赖性，实现了识别结果与特征表达能力相关，提高了在视频中进行人脸识别的准确性。

附图说明

图1为本发明实施例提供的基于视频的人脸识别方法的流程示意图；

图2为本发明实施例提供的基于视频的人脸识别装置的模块框图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

图1为本发明实施例提供的基于视频的人脸识别方法的流程示意图。

如图1所示，一种基于视频的人脸识别方法，包括如下步骤：

导入视频数据集,所述视频数据集包括多个视频数据；

应理解地，所述视频数据集可以为大量没有过多的角度光照变化的视频和人脸会出现90度的旋转以及不同程度的模糊视频。

上述实施例中，通过对各个视频数据的转换得到多个视频帧，分别对各个视频帧的特征提取得到人脸特征向量集和权重，对人脸特征向量集和所有的权重的评价分析得到人脸识别结果，避免了噪声样本的干扰，且无需参考评估和额外的训练评估模型,简化了处理步骤，减少了对数据数量的依赖性，实现了识别结果与特征表达能力相关，提高了在视频中进行人脸识别的准确性。

可选地，作为本发明的一个实施例，所述分别对各个所述视频帧进行特征提取，得到与各个所述视频帧对应的人脸特征向量和权重的过程包括：

通过卷积神经网络SSD分别对各个所述视频帧进行特征提取，得到与各个所述视频帧对应的人脸特征向量和权重。

应理解地，将采集的视频(即所述视频帧)逐个输入卷积神经网络SSD，输出对应视频内所有出现人脸的特征(即所述人脸特征向量)，并将某个人在某个视频内所有可能存在的特征向量(即所述人脸特征向量)的集合记为A。

应理解地，通过卷积神经网络SSD(Single Shot Detection)进行人脸目标检测，因SSD算法没有生成候选框的过程，使得其检测速度高。

上述实施例中，通过卷积神经网络SSD分别对各个视频帧的特征提取得到与各个视频帧对应的人脸特征向量和权重，提高了特征提取的速度，提高了在视频中进行人脸识别的准确性。

可选地，作为本发明的一个实施例，所述对所述人脸特征向量集和所有的权重进行评价分析，得到最优特征向量的过程包括：

分别计算各个所述权重的信息量，得到与各个所述视频帧对应的多个信息量；

分别对多个信息量进行总信息量的计算，得到与各个所述视频帧对应的总信息量；

根据各个所述权重分别对所述人脸特征向量集、所述人脸特征向量集中任意两个人脸特征向量以及两个所述人脸特征向量对应的总信息量进行特征评价函数的计算，得到与各个所述权重对应的特征评价函数；

对所有的特征评价函数进行最小值的筛选，得到最小特征评价函数，并将所述最小特征评价函数对应的人脸特征向量作为最优特征向量。

应理解地，通过特征评价函数寻找特征集合A(即所述人脸特征向量集)的最佳特征a*(即所述最优特征向量)，首先需要判断特征向量(即所述人脸特征向量)能否有效地表达输入图像，通过评价特征向量(即所述人脸特征向量)的“好与坏”来给算法设定学习目标。

具体地，实现有效信息量的评估步骤如下：

第一步，定义神经元向后传播的有效信息量；第二步，定义整个特征映射过程中传递的信息量。

通过上述对特征有效信息量评估方法的研究，可以认为a*拥有最大的人脸有效。

上述实施例中，对人脸特征向量集和所有的权重的评价分析得到最优特征向量，避免了噪声样本的干扰，且无需参考评估和额外的训练评估模型，实现了识别结果与特征表达能力相关，提高了在视频中进行人脸识别的准确性。

可选地，作为本发明的一个实施例，所述分别计算各个所述权重的信息量，得到与各个所述视频帧对应的多个信息量的过程包括：

通过第一式分别计算各个所述权重的信息量，得到与各个所述视频帧对应的多个信息量，所述第一式为：

其中，h(x_j)为信息量，x_j为第j个神经元，

为第i个权重。

应理解地，xj可以为卷积神经网络中倒数第二层的第j个神经元。

应理解地，X为卷积特征图平铺后的神经元，X＝[x1,x2,，，xn]，m表示与神经元x_j连接的下一层神经元的个数，w表示神经元之间的连接权重(即所述权重)。

上述实施例中，通过第一式分别计算各个权重的信息量得到与各个视频帧对应的多个信息量，为后续的处理提供基础，提高了在视频中进行人脸识别的准确性。

可选地，作为本发明的一个实施例，所述分别对多个信息量进行总信息量的计算，得到与各个所述视频帧对应的总信息量的过程包括：

通过第二式分别对多个信息量进行总信息量的计算，得到与各个所述视频帧对应的总信息量，所述第二式为：

其中，H(X)为总信息量，h(x_j)为信息量。

应理解地，H(X)越高，意味着输入图像对卷积操作响应得越多，同时给下一层神经元传递的数值也越大，最终作用于特征的信息量也越多。网络中的卷积核是由清晰人脸图像训练得到，倘若人脸图像存在角度、光照干扰，则其对卷积核响应较少，|xi|较小，因此H(X)较小。

上述实施例中，通过第二式分别对多个信息量的总信息量计算得到与各个视频帧对应的总信息量，不需要参考评估且不需要额外的训练评估模型，同时，实现了识别结果与特征表达能力相关，提高了在视频中进行人脸识别的准确性。

可选地，作为本发明的一个实施例，所述根据各个所述权重分别对所述人脸特征向量集、所述人脸特征向量集中任意两个人脸特征向量以及两个所述人脸特征向量对应的总信息量进行特征评价函数的计算，得到与各个所述权重对应的特征评价函数的过程包括：

根据第三式和各个所述权重分别对所述人脸特征向量集、所述人脸特征向量集中任意两个人脸特征向量以及两个所述人脸特征向量对应的总信息量进行特征评价函数的计算，得到与各个所述权重对应的特征评价函数，所述第三式为：

其中，D_error(a_i,a_j,a^)＝|D(a^，a_i)-D(a^，a_j)|if H(X_i)<H(X_j)，

其中，a^＝W^TA，

其中，F(a^)为特征评价函数，k为人脸特征向量集中人脸特征向量的个数，a_i和a_j分别为人脸特征向量集中任意两个人脸特征向量，a^为需要学习的人脸特征向量，H(X_i)为人脸特征向量a_i对应的总信息量，H(X_j)为人脸特征向量a_j对应的总信息量，A为人脸特征向量集，W^T为权重。

应理解地，所述人脸特征向量集包括了后续处理中任意两个人脸特征向量。

应理解地，所求的特征评价函数是通过计算需要学习的人脸特征向量a^与各个所述人脸特征向量的距离误差。

具体地，信息量，即它的H(X)在所述人脸特征向量集A中最大。因此，对于A中任意两个所述人脸特征向量a1、a2存在：

D(a*,a1)>D(a*,a2)if H(X1)<H(X2)，

所述的评价特征向量的算法通过重点研究最后一层卷积层的特征图神经元，通过分析特征提取模型中的神经元和连接权来计算特征有效信息量，结合有效信息量与不同特征之间的距离关系提出一种关系距离误差评价函数，实现了对特征空间中特征向量地评价。

上述实施例中，根据第三式和各个权重分别对人脸特征向量集、人脸特征向量集中任意两个人脸特征向量以及两个人脸特征向量对应的总信息量的特征评价函数计算得到与各个权重对应的特征评价函数，实现了对特征空间中特征向量地评价，不需要参考评估且不需要额外的训练评估模型，同时，实现了识别结果与特征表达能力相关，提高了在视频中进行人脸识别的准确性。

可选地，作为本发明的另一个实施例，如图2所示，一种基于视频的人脸识别装置，包括：

可选地，作为本发明的一个实施例，所述特征提取模块具体用于：

可选地，本发明的另一个实施例提供一种基于视频的人脸识别装置，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，当所述处理器执行所述计算机程序时，实现如上所述的基于视频的人脸识别方法。该装置可为计算机等装置。

可选地，本发明的另一个实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，当所述计算机程序被处理器执行时，实现如上所述的基于视频的人脸识别方法。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。