CN110674688B

CN110674688B - 用于视频监控场景的人脸识别模型获取方法、系统和介质

Info

Publication number: CN110674688B
Application number: CN201910765212.1A
Authority: CN
Inventors: 邵新庆; 李一力; 宋咏君; 刘强
Original assignee: Shenzhen ZNV Technology Co Ltd; Nanjing ZNV Software Co Ltd
Current assignee: Shenzhen ZNV Technology Co Ltd; Nanjing ZNV Software Co Ltd
Priority date: 2019-08-19
Filing date: 2019-08-19
Publication date: 2023-10-31
Anticipated expiration: 2039-08-19
Also published as: CN110674688A

Abstract

本发明涉及人脸识别技术领域，具体涉及一种用于视频监控场景的人脸识别模型获取方法和系统，其中方法包括采用带有人脸标签的高分辨率图像集先训练好教师神经网络模型，再获取与教师神经网络模型结构相同的学生网络模型，对该学生网络模型依次进行初始训练和微调训练得到高级人脸识别模型，采用获取的高级人脸识别模型对输入的视频数据进行人脸识别。这样训练得到的高级人脸识别模型是基于高精度的教师网络模型得来的，对于视频监控场景下的小人脸、模糊人脸以及侧脸等视频信息的识别精度更好，可以精确地识别出人脸信息。同时由于该高级人脸识别模型网络结构小，因此在人脸识别过程对硬件设备的存储能力和计算能力要求不高，节约了硬件成本。

Description

用于视频监控场景的人脸识别模型获取方法、系统和介质

技术领域

本发明涉及人脸识别技术领域，具体涉及一种用于视频监控场景的人脸识别模型获取方法、系统和介质。

背景技术

人脸识别是人工智能领域应用成熟度最高的技术。得益于深度学习技术的发展和大量人脸数据集的出现，人脸识别技术在机场安检、银行身份认证等领域应用逐渐普及。但在安防领域，视频监控的摄像头安装高度一般在3.5m到10m。一方面通常根据实际的场地情况，安装的摄像头很难捕获到清晰的正脸。另一方面不同于人脸的身份认证，可以在人脸采集时对行为人进行指导，获取清晰的正脸照片。视频监控一般以一个观察者的身份对行为人进行信息的无感知采集，这就造成采集的人脸质量差，包括侧脸、小尺度人脸、运动模糊人脸等。

当前对于这类问题的解决主要是通过训练一个人脸质量判别器，将那些质量低的人脸图像过滤来消除对人脸识别的影响。但是，由于特定的场景问题，大部分的视频监控采集到的人脸图像很少有满足要求的正脸图像，大部分都是分辨率很低、尺度小人脸，而现有的针对该视频监控场景下采集到的图像数据，进行人脸识别时，识别精度较差，因此监控效果不理想。

发明内容

为了解决现有技术中针对视频监控场景下进行人脸识别时识别精度较差的技术问题，本申请提供以下技术方案予以解决：

一种用于视频监控场景的人脸识别模型获取方法，包括：

利用带有人脸标签的高分辨率图像集训练一深度神经网络模型作为教师网络模型；

根据所述教师网络模型生成与所述教师网络模型结构相同的学生网络模型；

对所述高分辨率图像集进行降采样获取低分辨率图像集，采用该低分辨率图像集作为所述学生网络模型的输入对其进行初始训练，获取一个初级人脸识别模型，用于初步识别低分辨率的人脸图像；

对所述初级人脸识别模型进行微调训练得到高级人脸识别模型，用于精确识别低分辨率的人脸图像；

采用所述高级人脸识别模型对输入的视频数据进行人脸识别。

其中，所述学生网络模型的特征维度小于或等于所述教师网络模型的特征维度。

其中，所述利用带有人脸标签的高分辨率图像集训练一深度神经网络模型时采用的损失函数包括分类损失函数和相似性损失函数，所述分类损失函数为交叉熵损失函数或Additive Angular Margin Loss损失函数，所述相似性损失函数为三元组损失函数。

其中，对所述初级人脸识别模型进行微调训练得到高级人脸识别模型，用于精确识别低分辨率的人脸图像包括：

以所述初级人脸识别模型的相关参数为初始参数，采用均方误差损失函数对所述初级人脸识别模型进行训练，提高人脸识别的精度，得到高级人脸识别模型。

其中，所述采用该低分辨率图像集作为所述学生网络模型的输入对其进行初始训练，获取一个初级人脸识别模型时，设置所述学生网络模型的深度不大于所述教师网络模型深度的三分之一，并设置所述学生网络模型的卷积核为3，步长为1；

所述学生网络模型包括一个1*1的卷积层，其输入维度为2048，输出维度为256。

一种用于视频监控场景的人脸识别模型获取系统，包括：

教师网络训练模块，用于利用带有人脸标签的高分辨率图像集训练一深度神经网络模型作为教师网络模型；

学生网络获取模块，用于根据所述教师网络模型生成与所述教师网络模型结构相同的学生网络模型；

学生网络训练模块，用于对所述高分辨率图像集进行降采样获取低分辨率图像集，采用该低分辨率图像集作为所述学生网络模型的输入对其进行初始训练，获取一个初级人脸识别模型，用于初步识别低分辨率的人脸图像；

微调训练模块，用于对所述初级人脸识别模型进行微调训练得到高级人脸识别模型，用于精确识别低分辨率的人脸图像。

其中，所述学生网络模型的特征维度小于等于所述教师神经网络模型的特征维度。

一种用于视频监控场景的人脸识别装置，该人脸识别装置包括人脸识别模块，用于根据所述高级人脸识别模型对输入的视频数据进行人脸识别。

一种计算机可读存储介质，包括程序，所述程序能够被处理器执行以实现如上所述的方法。

依据上述实施例的人脸识别方法和系统，采用带有人脸标签的高分辨率图像集先训练好教师神经网络模型，再获取与教师神经网络模型结构相同的学生网络模型，对该学生网络模型依次进行初始训练和微调训练得到高级人脸识别模型，采用获取的高级人脸识别模型对输入的视频数据进行人脸识别，这样训练得到的高级人脸识别模型是基于高精度的教师网络模型得来的，因此对于视频监控场景下的小人脸、模糊人脸以及侧脸等视频信息的识别精度更好，可以精确地识别出人脸信息。

附图说明

图1为本申请实施例的人脸识别方法流程图；

图2为本申请实施例的人脸识别系统结构框图。

具体实施方式

下面通过具体实施方式结合附图对本发明作进一步详细说明。其中不同实施方式中类似元件采用了相关联的类似的元件标号。在以下的实施方式中，很多细节描述是为了使得本申请能被更好的理解。然而，本领域技术人员可以毫不费力的认识到，其中部分特征在不同情况下是可以省略的，或者可以由其他元件、材料、方法所替代。在某些情况下，本申请相关的一些操作并没有在说明书中显示或者描述，这是为了避免本申请的核心部分被过多的描述所淹没，而对于本领域技术人员而言，详细描述这些相关操作并不是必要的，他们根据说明书中的描述以及本领域的一般技术知识即可完整了解相关操作。

另外，说明书中所描述的特点、操作或者特征可以以任意适当的方式结合形成各种实施方式。同时，方法描述中的各步骤或者动作也可以按照本领域技术人员所能显而易见的方式进行顺序调换或调整。因此，说明书和附图中的各种顺序只是为了清楚描述某一个实施例，并不意味着是必须的顺序，除非另有说明其中某个顺序是必须遵循的。

本文中为部件所编序号本身，例如“第一”、“第二”等，仅用于区分所描述的对象，不具有任何顺序或技术含义。

本申请的人脸识别方法和系统，采用带有人脸标签的高分辨率图像集先训练好教师神经网络模型，再获取与教师神经网络模型结构相同的学生网络模型，对该学生网络模型依次进行初始训练和微调训练得到高级人脸识别模型，这样训练得到的高级人脸识别模型是基于高精度的教师网络模型得来的，因此对于视频监控场景下的小人脸、模糊人脸以及侧脸等视频信息的识别精度更好，可以精确地识别出人脸信息。

其中，本实施例中的高分辨率和低分辨率是相对概念，例如高于预设分辨率则认为是高分辨率，低于或等于则认为是低分辨率等。具体的，本实施例中图像的分辨率大于224*224为高分辨率，低于64*64为低分辨率。

实施例一：

请参考图1，本实施例提供一种用于视频监控场景的人脸识别模型获取方法，该方法包括：

步骤101：利用带有人脸标签的高分辨率图像集训练一深度神经网络模型作为教师网络模型；本实施例中教师网络模型选择卷积网络深的、表征能力强的网络，输出的特征也是维度比较高的，保证人脸识别的精度。

步骤102：根据教师网络模型生成与该教师网络模型结构相同的学生网络模型；根据教师网络模型得到的学生网络模型的特征维度小于或等于教师网络模型的特征维度，学生网络模型的特征维度设置为和教师网络模型相同，学生网络模型相比教师网路模型更小，处理周期更短。

步骤103：对高分辨率图像集进行降采样获取低分辨率图像集，采用该低分辨率图像集作为学生网络模型的输入对其进行初始训练，获取一个初级人脸识别模型，用于初步识别低分辨率的人脸图像。由于用于训练的学生网络模型的分辨率较低，因此训练获取的初级人脸识别模型对人脸图像的识别精度要远弱于教师网络模型，因此还需要进一步的对该学生网络模型进行微调训练。

步骤104：对初级人脸识别模型进行微调训练得到高级人脸识别模型，用于精确识别低分辨率的人脸图像。通过对初级人脸识别模型进行微调训练使得该初级人脸识别模型获得教师模型的识别能力，以提高其识别的精度。

步骤105:采用高级人脸识别模型对输入的视频数据进行人脸识别。

采用本实施例方法训练好的高级人脸识别模型对输入的视频数据进行人脸识别时，即使对低分辨率的人脸图像也具有较高的识别精度。因此对于视频监控场景下的小人脸、模糊人脸以及侧脸等视频信息的识别精度更好，可以精确地识别出人脸信息。且采用该基于学生模型训练得到的高级人脸识别模型对计算机内存和处理能力的要求不高，一般的计算机均可实现，便于在实际应用中推广。

实施例二：

步骤101：利用带有人脸标签的高分辨率图像集训练一深度神经网络模型作为教师网络模型；教师网络模型选择卷积网络深的、表征能力强的网络，输出的特征也是维度比较高的，保证人脸识别的精度。

步骤102：根据教师网络模型生成与该教师网络模型结构相同的学生网络模型；学生网络模型选择与教师网络模型相同结构，学生网络模型的网络长度设置为50层，即ResNet50，学生网络模型的特征维度小于或等于教师网络模型的特征维度，本实施例中，学生网络模型的特征维度设定为256维，也可以设定为与教师网络模型一致。

步骤103：对高分辨率图像集进行降采样获取低分辨率图像集，采用该低分辨率图像集作为学生网络模型的输入对其进行初始训练，获取一个初级人脸识别模型，用于初步识别低分辨率的人脸图像。由于用于训练的学生网络模型的分辨率较低，因此训练获取的初级人脸识别模型对人脸图像的识别精度要远弱于教师网络模型。

步骤104：对初级人脸识别模型进行微调训练得到高级人脸识别模型，用于精确识别低分辨率的人脸图像。本步骤中建立一个蒸馏网络对初级人脸识别模型进行微调训练使得该初级人脸识别模型获得教师模型的识别能力，以提高其识别的精度。

步骤105:采用所述高级人脸识别模型对输入的视频数据进行人脸识别。

其中，步骤101具体包括：

1011：设计深度卷积神经网络的长度，本实施例选取残差网络结构，网络长度为152层，即ResNet152。

1012：设计深度卷积神经网络的输入尺度，选取输入到网络的人脸图像尺度为224*224*3，其中224为长和宽，3表示输入的人脸图像是RGB三通道。

1013：设计网络最后的输出维度，删除ResNet152最后用作分类的全连接层。特征维度选择2048维，即深度卷积神经网络对一张人脸图像的编码表示为一个2048维的特征向量。对于224*224*3尺度的输入，ResNet结构最后的输出数据格式为7*7*2048。最后可以采用全局平均池化将最后的格式转换成1*1*2048，即得到最后的2048维的人脸表征向量。

1014：设计训练的损失函数。损失是训练的模型关于训练样本的预测值与真实值的差。损失函数则是对这些损失值在某种约束下得最小化。即使得训练得模型对样本的预测值与真是值一致。本实施例从人脸分类的角度中选择分类损失函数，如交叉熵损失函数(Cross Entropy Loss)或Additive Angular Margin Loss损失函数；从相似性方面，选择三元组损失(triplet loss)。

1015：搭建深度学习框架(如pytorch1.0)，将人脸训练数据和验证数据分别按照类别存放在不同的路径下。设置分类损失函数的类别数为人脸训练集不同人脸数。选择softmax loss和triplet loss两个损失函数作为整个训练的损失函数，其中两个损失函数的权重分别为1和2。

1016：启动对设计的深度神经网络模型的训练，直到最后的损失值收敛为止，取出训练完的人脸模型即为教师网络的模型。

步骤103具体包括：

1031：设计学生网络模型的网络长度为50层，即ResNet50，学生网络的深度要比教师网络小，但是基本的结构都是残差结构。

1032：修改在学生网络模型的最开始处的一个卷积的卷积核由7为3，步长由2修改为1，并删除最大池化部分。

1033：设置学生网络模型的输入为64*64*3。本实施例设定低分辨率的人脸尺度为长64个像素，宽64个像素。若改为其他尺度则需要对应的修改最终的输出的图像大小。

1034：最后在全连接层前为4*4*2048，增加一个1*1的卷积层，输入维度为2048，输出维度为256。这样就达到了降低维度为256维的目的。此外还连接一个全局池化层将4*4的尺度转层1*1，最终输出的特征维度维256维的向量。

通过以上步骤得到一个初级人脸识别模型，用于初步识别低分辨率的人脸图像，为了提高该初级人脸识别模型的识别精度，对该初级人脸识别模型进行微调训练，具体步骤104包括：

1041：将步骤101中训练好的清晰度高的高精度识别的深度神经网络模型作为用于人脸识别的教师网络模型，教师网络模型输入是高清晰度的人脸图像：224*224。

1042：将步骤103中设计的初级人脸识别网络作为本次训练的高级人脸识别网络模型，并使用步骤103中训练的初级人脸识别模型作为本次训练的初始参数，本次输入初始的人脸图像是输入到教师网络中的图像经过降采用后的：64*64。

1043：对于每个人脸图像，教师网络模型的输出(Embedding)是一个2048维的特征向量。此外将对应的人脸图像输入到学生网络模型输出(Embedding)的是一个256维特征向量。

1044：将高清晰的人脸图像送入到教师网络模型中获取高清人脸图像的特征(Embedding),然后根据图像的人脸ID选择相似性样本。Anchor表示当前选择的样本(锚示例)，Positive表示与Anchor相同人脸ID的样本(正示例)，Negative表示与Anchor不相同人脸ID的样本(负示例)。

对于有标签的样本，因为在输入给网络时候就知道了图像ID,这里可以采用在线选择难样本方式选择{Anchor、Positive、Negative}三元组。即每个样本选择与自己人脸ID相同的但是Embedding欧式距离最大的作为Positive,而选择与自己人脸ID不同的但是Embedding欧式距离最小的作为Negative。

对于没有标签的样本，这里的Anchor、和Positive和Negative通过教师网络计算的Embedding之间的欧式距离选择。即Positive表示与Anchor距离最小的，Negative表示与Anchor距离最大的样本。

1045：确定了训练的三元组{Anchor、Positive、Negative}，目标就是通过将降采样后的人脸图像输入到学生网络模型获取的人脸特征(Embedding1、Embedding2、Embedding3)计算欧式距离，使他们的相似关系与{Anchor、Positive、Negative}的相似关系一致。即使得学生网络模型的{Anchor_s、Positive_s、Negative_s}与教师网络模型的{Anchor、Positive、Negative}的相似关系一致。

1046：微调小人脸识别网络；以103中训练的初级人脸识别模型的参数为初始参数，该参数主要包括卷积核和归一化参数等，通过对学生网络模型建立损失函数进行训练。记教师网络模型计算的三元组的欧式距离dap,dan为点p0＝(dap,dan)，学生网络模型计算的三元组欧式距离daps,dans为点p1＝(daps,dans)。最后的损失函数为一个MSE(均方误差)损失函数。此外对应由标签的数据集还可以增加分类损失函数，同3中的交叉熵损失函数(Cross Entropy Loss)。

本实施例的人脸识别方法，采用带有人脸标签的高分辨率图像集先训练好教师神经网络模型，再获取与教师神经网络模型结构相同的学生网络模型，对该学生网络模型依次进行初始训练和微调训练得到高级人脸识别模型，这样训练得到的高级人脸识别模型是基于高精度的教师网络模型得来的，因此对于视频监控场景下的小人脸、模糊人脸以及侧脸等视频信息的识别精度更好，可以精确地识别出人脸信息，并且该方法对计算机内存和处理能力的要求不高，一般的计算机均可实现，便于在实际应用中推广。

实施例三

本实施例提供一种用于视频监控场景的人脸识别模型获取系统，请参考图2，该系统包括：

教师网络训练模块201，用于利用带有人脸标签的高分辨率图像集训练一深度神经网络模型作为教师网络模型；

学生网络获取模块202，用于根据教师网络模型生成与该教师网络模型结构相同的学生网络模型；其中，学生网络模型的特征维度小于等于教师神经网络模型。本实施例学生网络模型的网络长度设置为50层，即ResNet50，学生网络模型的特征维度小于或等于教师网络模型的特征维度，本实施例中，学生网络模型的特征维度设定为256维，也可以设定为与教师网络模型一致。

学生网络训练模块203，用于对高分辨率图像集进行降采样获取低分辨率图像集，采用该低分辨率图像集作为学生网络模型的输入对其进行初始训练，获取一个初级人脸识别模型，用于初步识别低分辨率的人脸图像。由于用于训练的学生网络模型的分辨率较低，因此训练获取的初级人脸识别模型对人脸图像的识别精度要远弱于教师网络模型。训练时设置学生网络模型最开始的卷积核为3，步长为1；学生网络模型包括一个1*1的卷积层，其输入维度为2048，输出维度为256。

微调训练模块204，用于对初级人脸识别模型进行微调训练得到高级人脸识别模型，用于精确识别低分辨率的人脸图像。微调训练模块204建立一个蒸馏网络对初级人脸识别模型进行微调训练使得该初级人脸识别模型获得教师模型的识别能力，以提高其识别的精度。

人脸识别模块205，用于根据高级人脸识别模型对输入的视频数据进行人脸识别。通过该高级人脸识别模型可以精确的从人脸图像中识别出人脸信息，且该系统对内存和处理器的要求不高，成本较低。

以上系统各模块中预设的具体训练方法和实施例1中相同，此处不再赘述，本实施例的人脸识别系统，采用带有人脸标签的高分辨率图像集先训练好教师神经网络模型，再获取与教师神经网络模型结构相同的学生网络模型，对该学生网络模型依次进行初始训练和微调训练得到高级人脸识别模型，这样训练得到的高级人脸识别模型是基于高精度的教师网络模型得来的，因此对于视频监控场景下的小人脸、模糊人脸以及侧脸等视频信息的识别精度更好，可以精确地识别出人脸信息。

实施例四

本实施例提供一种用于视频监控场景的人脸识别装置，该人脸识别装置包括人脸识别模块，该人脸识别模块中预设有训练好的高级人脸识别模型，用于根据高级人脸识别模型对输入的视频数据进行人脸识别。

实施例五

一种计算机可读存储介质，包括程序，所述程序能够被处理器执行以实现如实施例1的人脸识别模型获取方法。

以上应用了具体个例对本发明进行阐述，只是用于帮助理解本发明，并不用以限制本发明。对于本发明所属技术领域的技术人员，依据本发明的思想，还可以做出若干简单推演、变形或替换。

Claims

1.一种用于视频监控场景的人脸识别模型获取方法，其特征在于，包括：

利用带有人脸标签的高分辨率图像集训练一深度神经网络模型作为教师网络模型，其中所述教师网络模型为残差网络结构，训练时采用的损失函数包括分类损失函数和相似性损失函数，所述分类损失函数为交叉熵损失函数或Additive Angular Margin Loss损失函数，所述相似性损失函数为三元组损失函数；

对所述高分辨率图像集进行降采样获取低分辨率图像集，采用所述低分辨率图像集作为所述学生网络模型的输入对其进行初始训练，获取一个初级人脸识别模型，用于初步识别低分辨率的人脸图像；

对所述初级人脸识别模型进行微调训练得到高级人脸识别模型，用于精确识别低分辨率的人脸图像，包括：

将高分辨率的人脸图像输入所述教师网络模型中获取高清人脸图像的特征；

对于当前选择的样本Anchor，选择相应的正示例Positive和负示例Negative组成三元组{Anchor、Positive、Negative}，其中对于有标签的样本，采用在线选择难样本方式选择与自己人脸ID相同但是特征的欧式距离最大的作为正示例Positive，选择与自己人脸ID不同但是特征距离最小的作为负示例Negative；对于没有标签的样本，选择与样本Anchor的特征之间的欧式距离最小的作为正示例Positive，选择与样本Anchor的特征之间的欧式距离最大的作为负示例Negative；

将降采样后的人脸图像输入到所述学生网络模型获取人脸特征，获得所述学生网络模型的三元组{Anchor_s、Positive_s、Negative_s}；

计算所述教师网络模型的三元组的欧式距离dap,dan作为点p0＝(dap,dan)，计算所述学生网络模型的三元组的欧式距离daps,dans作为点p1＝(daps,dans)，构建均方误差损失函数；

以所述初级人脸识别模型的参数为初始参数，采用均方误差损失函数对所述初级人脸识别模型进行训练，提高人脸识别的精度，得到高级人脸识别模型。

2.如权利要求1所述的人脸识别模型获取方法，其特征在于，所述学生网络模型的特征维度小于或等于所述教师网络模型的特征维度。

3.如权利要求1所述的人脸识别模型获取方法，其特征在于，所述采用该低分辨率图像集作为所述学生网络模型的输入对其进行初始训练，获取一个初级人脸识别模型时，设置所述学生网络模型的深度不大于所述教师网络模型深度的三分之一，并设置所述学生网络模型的卷积核为3，步长为1；

4.一种用于视频监控场景的人脸识别模型获取系统，其特征在于，包括：

教师网络训练模块，用于利用带有人脸标签的高分辨率图像集训练一深度神经网络模型作为教师网络模型，其中所述教师网络模型为残差网络结构，训练时采用的损失函数包括分类损失函数和相似性损失函数，所述分类损失函数为交叉熵损失函数或AdditiveAngular Margin Loss损失函数，所述相似性损失函数为三元组损失函数；

微调训练模块，用于对所述初级人脸识别模型进行微调训练得到高级人脸识别模型，用于精确识别低分辨率的人脸图像，训练过程包括：

5.如权利要求4所述的人脸识别模型获取系统，其特征在于，所述学生网络模型的特征维度小于等于所述教师网络模型的特征维度。

6.一种计算机可读存储介质，其特征在于，包括程序，所述程序能够被处理器执行以实现如权利要求1-3中任一项所述的方法。