CN112733680A

CN112733680A - 一种基于监控视频流生成高质量人脸图像的模型训练方法、提取方法、装置和终端设备

Info

Publication number: CN112733680A
Application number: CN202011635065.5A
Authority: CN
Inventors: 李军; 周金明
Original assignee: Nanjing Inspector Intelligent Technology Co Ltd
Current assignee: Nanjing Inspector Intelligent Technology Co Ltd
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2021-04-30
Anticipated expiration: 2040-12-31
Also published as: CN112733680B

Abstract

本发明公开了一种基于监控视频流生成高质量人脸图像的模型训练方法、提取方法、装置和终端设备，其中训练方法包括：收集监控场景下的视频数据，对每段视频数据中的每个行人赋予一个唯一ID。对于每帧图像，人工使用矩形框标注出画面中每个行人人头的位置，对于符合要求的人脸，标注出人脸5个关键点位置，使用人脸识别算法模型计算该行人轨迹其它人脸图片和基准图片之间的相似度，作为每张人脸图片人脸模糊度的量化值。选择深度神经网络模型，基于多任务学习方法，预测人头的位置、人头在相邻帧的偏移量，是否包含人脸，人脸关键点位置，人脸模糊度的值，使用梯度下降优化算法，训练神经网络直至模型收敛。通过使用单个神经网络模型，使用多任务学习方法，实现监控视频画面中每个行人头部的检测和跟踪，同时简化了系统流程，提高了人脸识别系统的运行速度以及系统的鲁棒性。

Description

一种基于监控视频流生成高质量人脸图像的模型训练方法、提取方法、装置和终端设备

技术领域

本发明涉及计算机视觉和监控研究领域，具体涉及一种基于监控视频流生成高质量人脸图像的模型训练方法、提取方法、装置和终端设备。

背景技术

当前，随着计算机视觉技术的发展，尤其是深度学习技术的发展，基于监控视频进行人脸检测和识别，因其部署简单方便，不需要主动配合，可以实现简洁高效的管理和验证，得到了快速的发展和广泛的应用。在实现本发明过程中，发明人发现现有技术中至少存在如下问题：行人在监控视频画面出现的整个过程中，存在角度、遮挡、光照、运动模糊等造成人脸图像质量低下的一系列因素。低质量的人脸图片，降低人脸识别的检出率，导致了人脸识别的误检率升高，严重阻碍人脸识别系统的实际应用效果。

监控视频包含了每个行人在监控区域中的连续多帧图片，有效提取出一张包含高质量的人脸图片帧，是提高人脸识别系统运行效率和识别准确率的关键因素；同时也避免每个行人的重复检测和识别。

发明内容

为了克服现有技术的不足，本公开实施例提供了一种基于监控视频流生成高质量人脸图像的模型训练方法、提取方法、装置和终端设备，提高了人脸识别的准确率。技术方案如下：

第一方面，提供了一种基于监控视频流生成高质量人脸图像的模型训练方法，该方法包括如下步骤：

收集训练集：

收集监控场景的视频数据，对每段视频数据中每个行人赋予一个唯一ID，对每个ID关联的行人轨迹，使用矩形框标注出其在每帧图像中人头的位置，记H_i,j{c_x,c_y,w,h}，i表示轨迹的ID，j表示帧的序号，c_x,c_y表示人头矩形框中心点坐标位置，w,h表示人头矩形框的宽度和高度；标注出画面中每个行人人头的位置，并标注出人头中人脸俯仰角和偏转角是否在给定角度范围内，以0和1表示，0表示不符合要求，1表示符合要求；对于符合要求的人脸，标注出左眼中心、右眼中心、鼻尖，嘴部左边和嘴部右边5个关键点，记为L_i,j＝{x₁,y₁,…,x₅,y₅}，i表示轨迹的ID，j表示帧的序号，{x₁,y₁,…,x₅,y₅}分别表示每个关键点的位置；

对于每个行人的轨迹，人工挑选出一张质量最高的人脸图片作为该行人的人脸基准图片，对于所有俯仰角和偏转角均在给定角度范围内的人脸，使用人脸识别算法模型，计算其与该基准图片的相似度，作为模糊度的量化度量值，并将该轨迹所有模糊度的量化度量值归一化到[0,1]，记为B_i,j∈[0,1]；对于该轨迹人脸基准图片，其模糊度度量值为1，对于俯仰角和偏转角均不在±30⁰内的人脸图片，其模糊度度量值为0；

构建深度神经网络：

骨干神经网络结构选择ResNet50，使用FPN聚合不同网络层的特征，对于神经网络的head部分，输出7个分支，每个分支首先使用3×3卷积层、批量归一化层和ReLU层，再接一个1×1卷积层；第1个分支输出单通道特征图，输出对应位置是否存在人头，第2个分支输出二通道特征图，如果对应位置存在人头，输出人头的宽度和高度，第3个分支输出二通道特征图，如果对应位置存在人头，输出人头中心点的偏移量，第4个位置输出二通道特征图，如果对应位置存在人头，输出前一帧人头中心点在当前帧的偏移量，第5个分支输出单通道特征图，输入当前位置是否包含俯仰角和偏转角均在给定角度范围内的人脸，第6个分支输出10个通道的特征图，如果当前位置包含人脸，输出人脸关键点位置；第7个分支输出单通道特征图，如果当前位置包含人脸，输出人脸模糊度的值；将视频当前帧，前一帧，以及基于前一帧当中所有人头中心点生成的热点图合并到一起，生成7通道的图像，作为神经网络的输入；

训练深度神经网络：

基于深度神经网络模型的多任务学习方法，预测人头的位置、人头在相邻帧的偏移量、是否包含人脸、人脸关键点位置、人脸模糊度的值训练神经网络到收敛；对于网络模型的第1个分支、第5个分支，使用交叉熵结合使用Focal Loss算法计算分类损失，对于网络模型的其它分支，使用MSE计算损失；总损失计算公式为

其中λ_i取值是通过实验尝试不同的组合、根据实验结果选择的最佳组合，使用Adam优化算法，训练网络模型直至收敛。

优选的，步骤1所述对视频数据中每个行人赋予一个唯一ID，是指行人从视频画面中出现开始到离开视频画面，始终关联相同的ID，一个ID对应了一个行人在视频画面中的运动轨迹。

优选的，步骤1标注出人头中人脸俯仰角和偏转角是否在给定角度范围内，具体为：标注出该人头矩形框中是否包含俯仰角和偏转角均在±30°内的人脸，记为F_i,j＝{0,1}，其中0表示不包含俯仰角和偏转角均在±30°内的人脸，1表示包含俯仰角和偏转角均在±30°内的人脸。

优选的，所述热点图是一张单通道图像，像素取值范围在[0,1]，初始值均设置为0，对于前一帧中每个人头矩形框，以人头矩形框的中心点为圆心，计算出和该人头矩形框覆盖率达到0.7的半径r，使用高斯核

对热点图进行高斯卷积操作，生成最终的热点图。

进一步的，λ₁,λ₂和λ₃取值为1，λ₄取值为0.5，λ₅,λ₆和λ₇取值为0.1。

第二方面，提供了一种基于监控视频流生成高质量人脸图像的提取方法，该方法包括如下步骤：

采用根据所有可能的实现方式中任一项所述的一种基于监控视频流生成高质量人脸图像的模型训练方法训练出的神经网络，对监控视频画面中的每个行人进行检测和跟踪，对于每个行人轨迹，筛选出给定角度范围内的人脸图片，统一缩放到相同的尺寸，并基于网络检测出的关键点位置进行对齐，对于对齐后的图片，使用网络模型输出的人脸模糊度的值作为权重，将各个对齐图片的权重归一化到[0,1]，进行相加，得到最终用于人脸识别的人脸图像。

优选的，对监控视频画面中的每个行人进行检测和跟踪，具体为：基于网络输出的每个人头的位置和相邻帧之间的偏移量，实现对每个行人的检测和跟踪。

优选的，高质量人脸图像提取过程中，神经网络的输入为：将视频当前帧、前一帧、以及基于前一帧当中所有人头中心点生成的热点图合并到一起，生成的7通道的图像。

与现有技术相比，上述技术方案中的一个技术方案具有如下有益效果：通过使用单个神经网络模型，使用多任务学习方法，实现监控视频画面中每个行人头部的检测和跟踪，同时预测人脸是否出现、人脸关键点位置、人脸角度范围和人脸模糊度，降低人脸识别系统所依赖的模型数量，简化了系统流程，提高了人脸识别系统的运行速度以及系统的鲁棒性。并通过人脸模糊度的量化度量方法，给出了基于多帧低质量人脸图像合成出高质量人脸的算法，提高了人脸识别的准确率，解决了因角度、遮挡、光照、运动模糊等原因造成人脸图像质量低下及其伴随的人脸识别检出率低下的问题。

具体实施方式

为了阐明本发明的技术方案和工作原理，下面将对本公开实施方式做进一步的详细描述。上述所有可选技术方案，可以采用任意结合形成本公开的可选实施例，在此不再一一赘述。

本申请的说明书中的术语“步骤1”、“步骤2”、“步骤3”等类似描述是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里描述的那些以外的顺序实施。

第一方面：本公开实施例提供了一种基于监控视频流生成高质量人脸图像的模型训练方法,该方法包括如下步骤：

步骤1，收集训练集：

收集监控场景的视频数据，对每段视频数据中每个行人赋予一个唯一ID，对每个ID关联的行人轨迹，使用矩形框标注出其在每帧图像中人头的位置，记H_i,j{c_x,c_y,w,h}，i表示轨迹的ID，j表示帧的序号，c_x,c_y表示人头矩形框中心点坐标位置，w,h表示人头矩形框的宽度和高度；标注出画面中每个行人人头的位置，并标注出人头中人脸俯仰角和偏转角是否在给定角度范围内，以0和1表示，0表示不符合要求，1表示符合要求。对于符合要求的人脸，标注出左眼中心、右眼中心、鼻尖，嘴部左边和嘴部右边5个关键点，记为L_i,j＝{x₁,y₁,…,x₅,y₅}，i表示轨迹的ID，j表示帧的序号，{x₁,y₁,…,x₅,y₅}分别表示每个关键点的位置。

对于每个行人的轨迹，人工筛选出该轨迹中质量最高的人脸图片，作为基准图片，使用人脸识别算法模型计算轨迹其它人脸图片和基准图片之间的相似度，作为该人脸图片人脸模糊度的量化真实值。

通过对每个行人的头部进行检测和跟踪，有效缓解基于行人身体进行跟踪时由于行人间遮挡造成的轨迹中断的问题，以及基于人脸跟踪时由于人脸角度变化造成的轨迹中断问题，使得每个行人在监控视频画面中只对应一个轨迹，进而对每个行人轨迹只需提取一张人脸进行人脸识别，有效避免行人被多次识别的问题，提高了人脸识别系统的运行效率。

优选的，收集训练集还包括目前公开的包含清晰人脸的行人跟踪数据集。

优选的，所述对视频数据中每个行人赋予一个唯一ID，是指行人从视频画面中出现开始到离开视频画面，始终关联相同的ID，一个ID对应了一个行人在视频画面中的运动轨迹。

进一步地，标注出人头中人脸俯仰角和偏转角是否在给定角度范围内，具体为：标注出该人头矩形框中是否包含俯仰角和偏转角均在±30°内的人脸，记为F_i,j＝{0,1}，其中0表示不包含俯仰角和偏转角均在±30°内的人脸，1表示包含俯仰角和偏转角均在±30°内的人脸。

优选的，步骤1还包括对于每个轨迹ID，人工挑选出一张质量最高的人脸图片作为该行人的人脸基准图片，对于所有俯仰角和偏转角均在给定角度范围内(±30°内)的人脸，使用人脸识别算法模型，计算其与该基准图片的相似度，作为模糊度的量化度量值，并将该轨迹所有模糊度的量化度量值归一化到[0,1]，记为B_i,j∈[0,1]；对于该轨迹人脸基准图片，其模糊度度量值为1，对于俯仰角和偏转角均不在±30°内的人脸图片，其模糊度度量值为0。

步骤2，构建深度神经网络，骨干神经网络结构选择ResNet50，这里可以根据实际场景对性能的要求，适配其它的骨干神经网络。使用FPN，聚合不同网络层的特征，对于神经网络的head部分，输出7个分支，每个分支首先使用3×3卷积层、批量归一化层和ReLU层，再接一个1×1卷积层；第1个分支输出单通道特征图，输出对应位置是否存在人头，第2个分支输出二通道特征图，如果对应位置存在人头，输出人头的宽度和高度，第3个分支输出二通道特征图，如果对应位置存在人头，输出人头中心点的偏移量，第4个位置输出二通道特征图，如果对应位置存在人头，输出前一帧人头中心点在当前帧的偏移量，第5个分支输出单通道特征图，输入当前位置是否包含俯仰角和偏转角均在给定角度范围内(±30°内)的人脸，第6个分支输出10个通道的特征图，如果当前位置包含人脸，输出人脸关键点位置。第7个分支输出单通道特征图，如果当前位置包含人脸，输出人脸模糊度的值。

通过使用单个神经网络模型，替换传统方法中，先使用目标检测模型和目标跟踪模型获取行人轨迹，再使用人脸检测模型、人脸关键点检测模型以及人脸质量评估模型筛选出轨迹中较高质量人脸的策略，极大简化了获取高质量人脸的流程。同时，使用单个模型多任务学习的策略，训练出的神经网络模型更加鲁棒，提升了人脸检测、关键点检测的检测准确率；给出的人脸模糊度度量值，也是最终基于轨迹中多幅人脸生成单个人脸的关键因素所在。

步骤3，将视频当前帧，前一帧，以及基于前一帧当中所有人头中心点生成的热点图合并到一起，生成7通道的图像，作为神经网络的输入。

对热点图进行高斯卷积操作，生成最终的热点图。

步骤4，选择深度神经网络模型，基于多任务学习方法，预测人头的位置、人头在相邻帧的偏移量，是否包含人脸，人脸关键点位置，人脸模糊度的值训练神经网络到收敛。对于网络模型的第1个分支、第5个分支，使用交叉熵结合使用Focal Loss算法计算分类损失，对于网络模型的其它分支，使用MSE计算损失；总损失计算公式为

优选的，其中λ₁,λ₂和λ₃取值为1，λ₄取值为0.5，λ₅,λ₆和λ₇取值为0.1。

第二方面：本公开实施例提供了一种基于监控视频流生成高质量人脸图像的提取方法，该方法包括：

采用根据所有可能的实现方式中任一项所述的一种基于监控视频流生成高质量人脸图像的模型训练方法训练出的神经网络，部署训练好的神经网络模型到实际的场景，基于网络输出的每个人头的位置和连续帧之间的偏移量，实现对每个行人的检测和跟踪。对每个行人的轨迹，提取出所有俯仰角和偏转角均在±30°内的人脸图片，归一化到120×120大小，并基于网络检测出的5个关键点位置进行对齐。对于对齐后的图片，使用神经网络模型输出的模糊度值作为权重，将各个对齐图片的权重归一化到[0,1]，进行相加，得到最终用于人脸识别的人脸图像。

第三方面，本公开实施例提供了一种基于监控视频流生成高质量人脸图像的提取装置，其特征在于，该装置包括训练模块和提取模块。

所述训练模块，用于执行所有可能的实现方式中任一项所述的一种基于监控视频流生成高质量人脸图像的模型训练方法的步骤。

所述提取模块，用于执行所有可能的实现方式中任一项所述的一种基于监控视频流生成高质量人脸图像的提取方法的步骤。

需要说明的是，上述实施例提供的一种基于监控视频流生成高质量人脸图像的提取装置在执行一种基于监控视频流生成高质量人脸图像的模型训练方法和一种基于监控视频流生成高质量人脸图像的提取方法时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

第四方面，本公开实施例提供了一种终端设备，该终端设备包括所有可能的实现方式中任一项所述的一种基于监控视频流生成高质量人脸图像的提取装置。

以上对本发明进行了示例性描述，显然，本发明具体实现并不受上述方式的限制，凡是采用了本发明的方法构思和技术方案进行的各种非实质性的改进；或者未经改进、等同替换，将本发明的上述构思和技术方案直接应用于其他场合的，均在本发明的保护范围之内。

Claims

1.一种基于监控视频流生成高质量人脸图像的模型训练方法，其特征在于，该方法包括如下步骤：

收集训练集：

对于每个行人的轨迹，人工挑选出一张质量最高的人脸图片作为该行人的人脸基准图片，对于所有俯仰角和偏转角均在给定角度范围内的人脸，使用人脸识别算法模型，计算其与该基准图片的相似度，作为模糊度的量化度量值，并将该轨迹所有模糊度的量化度量值归一化到[0,1]，记为B_i,j∈[0,1]；对于该轨迹人脸基准图片，其模糊度度量值为1，对于俯仰角和偏转角均不在±30°内的人脸图片，其模糊度度量值为0；

构建深度神经网络：

训练深度神经网络：

2.根据权利要求1所述的一种基于监控视频流生成高质量人脸图像的模型训练方法，其特征在于，步骤1所述对视频数据中每个行人赋予一个唯一ID，是指行人从视频画面中出现开始到离开视频画面，始终关联相同的ID，一个ID对应了一个行人在视频画面中的运动轨迹。

3.根据权利要求1所述的一种基于监控视频流生成高质量人脸图像的模型训练方法，其特征在于，步骤1标注出人头中人脸俯仰角和偏转角是否在给定角度范围内，具体为：标注出该人头矩形框中是否包含俯仰角和偏转角均在±30°内的人脸，记为F_i,j＝{0,1}，其中0表示不包含俯仰角和偏转角均在±30°内的人脸，1表示包含俯仰角和偏转角均在±30°内的人脸。

4.根据权利要求1-3任一项所述的一种基于监控视频流生成高质量人脸图像的模型训练方法，其特征在于，所述热点图是一张单通道图像，像素取值范围在[0,1]，初始值均设置为0，对于前一帧中每个人头矩形框，以人头矩形框的中心点为圆心，计算出和该人头矩形框覆盖率达到0.7的半径r，使用高斯核

对热点图进行高斯卷积操作，生成最终的热点图。

5.根据权利要求4所述的一种基于监控视频流生成高质量人脸图像的模型训练方法，其特征在于，λ₁,λ₂和λ₃取值为1，λ₄取值为0.5，λ₅,λ₆和λ₇取值为0.1。

6.一种基于监控视频流生成高质量人脸图像的提取方法，其特征在于，该方法包括如下步骤：

采用根据权利要求1-5任一项所述的一种基于监控视频流生成高质量人脸图像的模型训练方法训练出的神经网络，对监控视频画面中的每个行人进行检测和跟踪，对于每个行人轨迹，筛选出给定角度范围内的人脸图片，统一缩放到相同的尺寸，并基于网络检测出的关键点位置进行对齐，对于对齐后的图片，使用网络模型输出的人脸模糊度的值作为权重，将各个对齐图片的权重归一化到[0,1]，进行相加，得到最终用于人脸识别的人脸图像。

7.根据权利要求6所述的一种基于监控视频流生成高质量人脸图像的提取方法，其特征在于，对监控视频画面中的每个行人进行检测和跟踪，具体为：基于网络输出的每个人头的位置和相邻帧之间的偏移量，实现对每个行人的检测和跟踪。

8.根据权利要求6所述的一种基于监控视频流生成高质量人脸图像的提取方法，其特征在于，高质量人脸图像提取过程中，神经网络的输入为：将视频当前帧、前一帧、以及基于前一帧当中所有人头中心点生成的热点图合并到一起，生成的7通道的图像。

9.一种基于监控视频流生成高质量人脸图像的提取装置，其特征在于，该装置包括训练模块和提取模块，

所述训练模块，用于执行权利要求1-5任一项所述的一种基于监控视频流生成高质量人脸图像的模型训练方法的步骤；

所述提取模块，用于执行权利要求6-8任一项所述的一种基于监控视频流生成高质量人脸图像的提取方法的步骤。

10.一种终端设备，其特征在于，该终端设备包括权利要求9所述一种基于监控视频流生成高质量人脸图像的提取装置。