CN114612995A

CN114612995A - 一种人脸特征识别方法及装置

Info

Publication number: CN114612995A
Application number: CN202210299901.XA
Authority: CN
Inventors: 郭锐; 方俭; 敖乃翔; 王德勇; 王猛; 师文喜; 黄波; 梁佳雨; 李鹏
Original assignee: Xinjiang Lianhai Ina Int Information Technology Ltd
Current assignee: Xinjiang Lianhai Ina Int Information Technology Ltd
Priority date: 2022-03-25
Filing date: 2022-03-25
Publication date: 2022-06-10

Abstract

本发明公开了一种人脸特征识别方法及装置，包括：获取待识别视频流；将所述待识别视频流的每一视频帧对应的图像输入至目标识别模型，确定所述视频帧是否包括人脸，其中，所述目标识别模型是基于标注有人脸特征标签的训练样本训练得到的神经网络模型；若所述视频帧包括人脸，确定与所述人脸对应的人脸特征标签，所述人脸特征标签至少包括民族特征标签。本发明中能够基于目标识别模型对不同人脸特征进行识别，实现更细粒度地人脸特征分类，提升了人脸特征识别的精准性。

Description

一种人脸特征识别方法及装置

技术领域

本发明涉及信息处理技术领域，特别是涉及一种人脸特征识别方法及装置。

背景技术

随着近几年数据存储技术的进步和带宽流量的迅速提升，短视频应用也不断涌现，视频数据增长巨大，生成视频数据和使用数据已经成为人们日常生活的一部分。

通常应用在视频数据中的人脸特征识别是在视频画面中识别出人脸，但对于人脸的细粒化特征的识别效果并不是较好，例如，对视频中人脸进行地域、民族等特征区分并不准确。因此，现有的人脸特征识别方法在细粒度特征识别方面存在着识别不准确的缺陷。

发明内容

针对于上述问题，本发明提供一种人脸特征识别方法及装置，实现了提升人脸特征识别准确度的目的。

为了实现上述目的，本发明提供了如下技术方案：

一种人脸特征识别方法，包括：

获取待识别视频流；

将所述待识别视频流的每一视频帧对应的图像输入至目标识别模型，确定所述视频帧是否包括人脸，其中，所述目标识别模型是基于标注有人脸特征标签的训练样本训练得到的神经网络模型；

若所述视频帧包括人脸，确定与所述人脸对应的人脸特征标签，所述人脸特征标签至少包括民族特征标签。

可选地，所述方法还包括：

获取视频数据；

对所述视频数据进行处理，得到训练样本；

利用目标神经网络结构，对所述训练样本进行训练，得到目标识别模型，所述目标神经网络结构为能够实现类内特征的聚合和类间特征的离散的结构。

可选地，所述对所述视频数据进行处理，得到训练样本，包括：

对所述视频数据进行视频帧提取，获得包括人脸的目标视频帧；

对所述目标视频帧进行人脸特征标注，得到人脸特征标签，所述人脸特征包括人脸地域特征、性别特征、年龄特征和民族特征中的至少一种；

基于标注有所述人脸特征标签的目标视频帧生成训练样本。

可选地，所述方法还包括：

对所述训练样本进行数据增强，获得目标训练样本，以使得通过所述目标训练样本进行训练得到目标识别模型。

可选地，所述方法还包括：

构建目标神经网络结构，包括：

确定神经网络的初始结构，所述初始结构包括卷积层和全局池化层，所述卷积层用于对视频帧中的人脸信息进行多尺度特征融合，所述全局池化层用于进行人脸特征识别；

基于人脸特征的类间特征相似度参数和类内特征相似度参数，确定损失函数；

基于所述初始结构和所述损失函数，生成目标神经网络结构。

一种人脸特征识别装置，包括：

获取单元，用于获取待识别视频流；

模型处理单元，用于将所述待识别视频流的每一视频帧对应的图像输入至目标识别模型，确定所述视频帧是否包括人脸，其中，所述目标识别模型是基于标注有人脸特征标签的训练样本训练得到的神经网络模型；

确定单元，用于若所述视频帧包括人脸，确定与所述人脸对应的人脸特征标签，所述人脸特征标签至少包括民族特征标签。

可选地，所述装置还包括：

数据获取单元，用于获取视频数据；

数据处理单元，用于对所述视频数据进行处理，得到训练样本；

模型训练单元，用于利用目标神经网络结构，对所述训练样本进行训练，得到目标识别模型，所述目标神经网络结构为能够实现类内特征的聚合和类间特征的离散的结构。

可选地，所述数据处理单元包括：

提取子单元，用于对所述视频数据进行视频帧提取，获得包括人脸的目标视频帧；

标注子单元，用于对所述目标视频帧进行人脸特征标注，得到人脸特征标签，所述人脸特征包括人脸地域特征、性别特征、年龄特征和民族特征中的至少一种；

生成子单元，用于基于标注有所述人脸特征标签的目标视频帧生成训练样本。

可选地，所述装置还包括：

增强种子单元，用于对所述训练样本进行数据增强，获得目标训练样本，以使得通过所述目标训练样本进行训练得到目标识别模型。

可选地，所述装置还包括：

构建单元，用于构建目标神经网络结构，所述构建单元具体用于：

相较于现有技术，本发明提供了一种人脸特征识别方法及装置，包括：获取待识别视频流；将所述待识别视频流的每一视频帧对应的图像输入至目标识别模型，确定所述视频帧是否包括人脸，其中，所述目标识别模型是基于标注有人脸特征标签的训练样本训练得到的神经网络模型；若所述视频帧包括人脸，确定与所述人脸对应的人脸特征标签，所述人脸特征标签至少包括民族特征标签。本发明中能够基于目标识别模型对不同人脸特征进行识别，实现更细粒度地人脸特征分类，提升了人脸特征识别的精准性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的一种人脸特征识别方法的流程示意图；

图2为本发明实施例提供的一种人脸特征识别装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”和“第二”等是用于区别不同的对象，而不是用于描述特定的顺序。此外术语“包括”和“具有”以及他们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有设定于已列出的步骤或单元，而是可包括没有列出的步骤或单元。

在本发明实施例中提供了一种人脸特征识别方法，该方法应用于基于视频数据进行人脸特征分类的应用场景中，可以识别出视频帧图像中是否包括人脸，并且能够进一步对人脸的细粒化特征进行分类，其中，细粒化特征是指能够基于人脸特征进行分化得到的分类，如年龄、型别、地域、民族等特征的分类。

具体的，参见图1，为本发明实施例提供的一种人脸特征识别方法的流程示意图，该方法可以包括以下步骤：

S101、获取待识别视频流。

该待识别视频流是指需要进行人脸特征识别的视频流，可以是本地视频流，也可以是基于特定视频采集设备采集的视频流，如，通过监控设备采集的监控视频流。还可以是基于短视频平台下载的视频流。

S102、将所述待识别视频流的每一视频帧对应的图像输入至目标识别模型，确定所述视频帧是否包括人脸。

S103、若所述视频帧包括人脸，确定与所述人脸对应的人脸特征标签。

目标识别模型是基于标注有人脸特征标签的训练样本训练得到的神经网络模型。在本申请实施例中的目标识别模型不仅可以识别出图像中是否具有人脸，并且还可以识别该人脸对应的人脸特征标签。该目标识别模型具有特定的模型结构，其是针对人脸面部特征提取任务而搭建的，可以有效对人脸图片信息进行多尺度特征融合。具体的，在本发明实施例中还提供了一种目标识别模型的构建方法，包括：获取视频数据；对所述视频数据进行处理，得到训练样本；利用目标神经网络结构，对所述训练样本进行训练，得到目标识别模型，所述目标神经网络结构为能够实现类内特征的聚合和类间特征的离散的结构。

通过目标识别模型可以识别出待识别视频流中对应的人脸特征标签，其中，人脸特征标签可以包括性别标签、年龄标签、民族特征标签等。例如，可以识别出图像中人脸属于哪个民族。

在本发明实施例的一种实现方式中，所述对所述视频数据进行处理，得到训练样本，包括：对所述视频数据进行视频帧提取，获得包括人脸的目标视频帧；对所述目标视频帧进行人脸特征标注，得到人脸特征标签，所述人脸特征包括人脸地域特征、性别特征、年龄特征和民族特征中的至少一种；基于标注有所述人脸特征标签的目标视频帧生成训练样本。

例如，首先进行人脸数据库的建立。使用网络爬取手段从短视频应用平台上可以获取大量短视频数据。对视频数据可以按照每2秒进行逐一分帧，将视频内容转化为间隔2秒的图片格式的数据，把图片里的人脸进行抠取，得到人脸数据。然后，对人脸数据库中的人脸特征进行标注，如人脸特征为年龄特征，对视频数据中的目标视频帧对应的人脸进行年龄段标注，从而使得后续学习中能够识别年龄特征。若对民族特征进行标注，可以标注各个民族的民族特征。为了避免因数据集不平衡训练带来的错误，可以使得各个民族对应的标注图像数量相等。可以将得到的标注人脸特征标签的目标视频帧对应的图像作为训练样本，也可以进一步按照一定的比例(如13：5：2)划分为训练集、验证集和测试集。

为了能够使得训练结果更加准确，可以对训练样本进行数据增强，获得目标训练样本，以使得通过所述目标训练样本进行训练得到目标识别模型。例如，采取多色美颜滤镜叠加0.25倍的噪声使得人脸数据训练样本扩充至原来的2倍左右，后将人脸数据输入到深度神经网络模型中进行训练。

在本发明实施例的另一种实现方式中，还包括：构建目标神经网络结构，具体的，包括：确定神经网络的初始结构，所述初始结构包括卷积层和全局池化层，所述卷积层用于对视频帧中的人脸信息进行多尺度特征融合，所述全局池化层用于进行人脸特征识别；基于人脸特征的类间特征相似度参数和类内特征相似度参数，确定损失函数；基于所述初始结构和所述损失函数，生成目标神经网络结构。

目标神经网络结构可以有效最大化的实现类内特征的聚合与类间特征的离散，可以更有效区分人脸特征。从而生成目标识别模型可以提取图像中的人脸特征，该神经网络结构更加完善，可以将注意力集中到人脸所在图像区域。以最大程度的模拟面部类的可分性，提高模型的鲁棒性和分辨能力。

目标神经网络结构是由初始结构和损失函数生成的。初始结构中大小为 1*1卷积核，步长为1的卷积层可有效的对人脸图片信息进行多尺度特征融合，同时保证输入图像被缩放也可以正常工作，还可以包括的归一化层可大大缩短模型的训练时长。具体的，为了使得模型预测效果最优，准确度更高，该结构可以由9层卷积神经网络结构构成，第一层是大小为1*1卷积核，步长为1的卷积层。第四层是大小为3*3卷积核，步长为1的卷积层。第七层大小为1*1卷积核，步长为1的卷积层。第一层与第四层的通道数一样大，第七层的通道数是第一层与第四层通道数的4倍大小。其中第二层，第五层，第八层为归一化网络层。第三层与第九层采用线性整流函数为激活函数。另在第一层网络前引出并行分支与第八层网络一起累加计算接入第九层网络。

对应的，目标识别模型可以是一个深度神经网络模型，其整体结构如下：

模型的第一层为3x3的卷积核，步长为1的卷积层，以便人脸数据的输入。第二层为最大池化层，步长为2。接下来，由上至下串联16个Uhface网络模块(Uhface网络模块为人脸特征分类)，其中，串联模块操作可有效增加网络结构的深度与宽度，最大化的实现人脸特征提取。例如，以3:4:6:3分布，并在每个Uhface网络模块外加入注意力机制，使得拉伸网络并赋予权重。其中前3个Uhface网络模块中第一层通道数为64，随后Uhface网络模块按比例分布第一层通道数依次翻2倍。最后一层采用全局池化层代替全连接层，进行人脸特征的区分。

利用搭建的深度神经网络模型(即目标识别模型)提取人脸特征。

其中，损失函数是根据最小化类别间相似度a₁，最大化类别内相似度a₂来计算，使得a₁-a₂的值为最小。损失函数计算如下：

上式中，p₁，p₂为相对于a₁，a₂线性变换后，相互独立的权重值，γ为超参数。

在获得了人脸特征标签后，可以经过多次调参，训练出最优模型。

最后输入验证集对训练的模型进行验证，最后输入测试集进行测试，输出人脸识别的准确率，从而得到目标识别模型。

本发明实施例提供了一种人脸特征识别方法，包括：获取待识别视频流；将所述待识别视频流的每一视频帧对应的图像输入至目标识别模型，确定所述视频帧是否包括人脸，其中，所述目标识别模型是基于标注有人脸特征标签的训练样本训练得到的神经网络模型；若所述视频帧包括人脸，确定与所述人脸对应的人脸特征标签，所述人脸特征标签至少包括民族特征标签。本发明中能够基于目标识别模型对不同人脸特征进行识别，实现更细粒度地人脸特征分类，提升了人脸特征识别的精准性。

在本发明实施例中还提供了一种人脸特征识别装置，参见图2，包括：

获取单元201，用于获取待识别视频流；

模型处理单元202，用于将所述待识别视频流的每一视频帧对应的图像输入至目标识别模型，确定所述视频帧是否包括人脸，其中，所述目标识别模型是基于标注有人脸特征标签的训练样本训练得到的神经网络模型；

确定单元203，用于若所述视频帧包括人脸，确定与所述人脸对应的人脸特征标签，所述人脸特征标签至少包括民族特征标签。

可选地，所述装置还包括：

数据获取单元，用于获取视频数据；

可选地，所述数据处理单元包括：

可选地，所述装置还包括：

本发明实施例提供了一种人脸特征识别装置，包括：获取单元获取待识别视频流；模型处理单元将所述待识别视频流的每一视频帧对应的图像输入至目标识别模型，确定所述视频帧是否包括人脸，其中，所述目标识别模型是基于标注有人脸特征标签的训练样本训练得到的神经网络模型；确定单元若所述视频帧包括人脸，确定与所述人脸对应的人脸特征标签，所述人脸特征标签至少包括民族特征标签。本发明中能够基于目标识别模型对不同人脸特征进行识别，实现更细粒度地人脸特征分类，提升了人脸特征识别的精准性。

基于前述实施例，本申请的实施例提供一种计算机可读存储介质，计算机可读存储介质存储有一个或者多个程序，该一个或者多个程序可被一个或者多个处理器执行，以实现如上任一项的人脸特征识别方法的步骤。

本发明实施例还提供了一种电子设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现：

一种人脸特征识别方法，包括：

获取待识别视频流；

可选地，所述方法还包括：

获取视频数据；

对所述视频数据进行处理，得到训练样本；

基于标注有所述人脸特征标签的目标视频帧生成训练样本。

可选地，所述方法还包括：

构建目标神经网络结构，包括：

需要说明的是，上述处理器或CPU可以为特定用途集成电路(ApplicationSpecificIntegratedCircuit，ASIC)、数字信号处理器(DigitalSignalProcessor， DSP)、数字信号处理装置(DigitalSignalProcessingDevice，DSPD)、可编程逻辑装置(ProgrammableLogicDevice，PLD)、现场可编程门阵列(Field ProgrammableGateArray，FPGA)、中央处理器(CentralProcessingUnit，CPU)、控制器、微控制器、微处理器中的至少一种。可以理解地，实现上述处理器功能的电子器件还可以为其它，本申请实施例不作具体限定。

需要说明的是，上述计算机存储介质/存储器可以是只读存储器(ReadOnlyMemory，ROM)、可编程只读存储器(ProgrammableRead-OnlyMemory， PROM)、可擦除可编程只读存储器(ErasableProgrammableRead-Only Memory，EPROM)、电可擦除可编程只读存储器(ElectricallyErasable ProgrammableRead-OnlyMemory，EEPROM)、磁性随机存取存储器 (FerromagneticRandomAccessMemory，FRAM)、快闪存储器(FlashMemory)、磁表面存储器、光盘、或只读光盘(CompactDiscRead-OnlyMemory，CD-ROM) 等存储器；也可以是包括上述存储器之一或任意组合的各种终端，如移动电话、计算机、平板设备、个人数字助理等。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元，即可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本申请各实施例中的各功能单元可以全部集成在一个处理模块中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(RandomAccessMemory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本申请所提供的几个方法实施例中所揭露的方法，在不冲突的情况下可以任意组合，得到新的方法实施例。

本申请所提供的几个产品实施例中所揭露的特征，在不冲突的情况下可以任意组合，得到新的产品实施例。

本申请所提供的几个方法或设备实施例中所揭露的特征，在不冲突的情况下可以任意组合，得到新的方法实施例或设备实施例。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种人脸特征识别方法，其特征在于，包括：

获取待识别视频流；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取视频数据；

对所述视频数据进行处理，得到训练样本；

3.根据权利要求2所述的方法，其特征在于，所述对所述视频数据进行处理，得到训练样本，包括：

基于标注有所述人脸特征标签的目标视频帧生成训练样本。

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

5.根据权利要求2所述的方法，其特征在于，所述方法还包括：

构建目标神经网络结构，包括：

6.一种人脸特征识别装置，其特征在于，包括：

获取单元，用于获取待识别视频流；

7.根据权利要求6所述的装置，其特征在于，所述装置还包括：

数据获取单元，用于获取视频数据；

8.根据权利要求7所述的装置，其特征在于，所述数据处理单元包括：

9.根据权利要求8所述的装置，其特征在于，所述装置还包括：

10.根据权利要求7所述的装置，其特征在于，所述装置还包括：