CN112733680A - 一种基于监控视频流生成高质量人脸图像的模型训练方法、提取方法、装置和终端设备 - Google Patents

一种基于监控视频流生成高质量人脸图像的模型训练方法、提取方法、装置和终端设备 Download PDF

Info

Publication number
CN112733680A
CN112733680A CN202011635065.5A CN202011635065A CN112733680A CN 112733680 A CN112733680 A CN 112733680A CN 202011635065 A CN202011635065 A CN 202011635065A CN 112733680 A CN112733680 A CN 112733680A
Authority
CN
China
Prior art keywords
face
head
pedestrian
human
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011635065.5A
Other languages
English (en)
Other versions
CN112733680B (zh
Inventor
李军
周金明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Inspector Intelligent Technology Co Ltd
Original Assignee
Nanjing Inspector Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Inspector Intelligent Technology Co Ltd filed Critical Nanjing Inspector Intelligent Technology Co Ltd
Priority to CN202011635065.5A priority Critical patent/CN112733680B/zh
Publication of CN112733680A publication Critical patent/CN112733680A/zh
Application granted granted Critical
Publication of CN112733680B publication Critical patent/CN112733680B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Computer Interaction (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于监控视频流生成高质量人脸图像的模型训练方法、提取方法、装置和终端设备,其中训练方法包括:收集监控场景下的视频数据,对每段视频数据中的每个行人赋予一个唯一ID。对于每帧图像,人工使用矩形框标注出画面中每个行人人头的位置,对于符合要求的人脸,标注出人脸5个关键点位置,使用人脸识别算法模型计算该行人轨迹其它人脸图片和基准图片之间的相似度,作为每张人脸图片人脸模糊度的量化值。选择深度神经网络模型,基于多任务学习方法,预测人头的位置、人头在相邻帧的偏移量,是否包含人脸,人脸关键点位置,人脸模糊度的值,使用梯度下降优化算法,训练神经网络直至模型收敛。通过使用单个神经网络模型,使用多任务学习方法,实现监控视频画面中每个行人头部的检测和跟踪,同时简化了系统流程,提高了人脸识别系统的运行速度以及系统的鲁棒性。

Description

一种基于监控视频流生成高质量人脸图像的模型训练方法、 提取方法、装置和终端设备
技术领域
本发明涉及计算机视觉和监控研究领域,具体涉及一种基于监控视频流生成高质量人脸图像的模型训练方法、提取方法、装置和终端设备。
背景技术
当前,随着计算机视觉技术的发展,尤其是深度学习技术的发展,基于监控视频进行人脸检测和识别,因其部署简单方便,不需要主动配合,可以实现简洁高效的管理和验证,得到了快速的发展和广泛的应用。在实现本发明过程中,发明人发现现有技术中至少存在如下问题:行人在监控视频画面出现的整个过程中,存在角度、遮挡、光照、运动模糊等造成人脸图像质量低下的一系列因素。低质量的人脸图片,降低人脸识别的检出率,导致了人脸识别的误检率升高,严重阻碍人脸识别系统的实际应用效果。
监控视频包含了每个行人在监控区域中的连续多帧图片,有效提取出一张包含高质量的人脸图片帧,是提高人脸识别系统运行效率和识别准确率的关键因素;同时也避免每个行人的重复检测和识别。
发明内容
为了克服现有技术的不足,本公开实施例提供了一种基于监控视频流生成高质量人脸图像的模型训练方法、提取方法、装置和终端设备,提高了人脸识别的准确率。技术方案如下:
第一方面,提供了一种基于监控视频流生成高质量人脸图像的模型训练方法,该方法包括如下步骤:
收集训练集:
收集监控场景的视频数据,对每段视频数据中每个行人赋予一个唯一ID,对每个ID关联的行人轨迹,使用矩形框标注出其在每帧图像中人头的位置,记Hi,j{cx,cy,w,h},i表示轨迹的ID,j表示帧的序号,cx,cy表示人头矩形框中心点坐标位置,w,h表示人头矩形框的宽度和高度;标注出画面中每个行人人头的位置,并标注出人头中人脸俯仰角和偏转角是否在给定角度范围内,以0和1表示,0表示不符合要求,1表示符合要求;对于符合要求的人脸,标注出左眼中心、右眼中心、鼻尖,嘴部左边和嘴部右边5个关键点,记为Li,j={x1,y1,…,x5,y5},i表示轨迹的ID,j表示帧的序号,{x1,y1,…,x5,y5}分别表示每个关键点的位置;
对于每个行人的轨迹,人工挑选出一张质量最高的人脸图片作为该行人的人脸基准图片,对于所有俯仰角和偏转角均在给定角度范围内的人脸,使用人脸识别算法模型,计算其与该基准图片的相似度,作为模糊度的量化度量值,并将该轨迹所有模糊度的量化度量值归一化到[0,1],记为Bi,j∈[0,1];对于该轨迹人脸基准图片,其模糊度度量值为1,对于俯仰角和偏转角均不在±300内的人脸图片,其模糊度度量值为0;
构建深度神经网络:
骨干神经网络结构选择ResNet50,使用FPN聚合不同网络层的特征,对于神经网络的head部分,输出7个分支,每个分支首先使用3×3卷积层、批量归一化层和ReLU层,再接一个1×1卷积层;第1个分支输出单通道特征图,输出对应位置是否存在人头,第2个分支输出二通道特征图,如果对应位置存在人头,输出人头的宽度和高度,第3个分支输出二通道特征图,如果对应位置存在人头,输出人头中心点的偏移量,第4个位置输出二通道特征图,如果对应位置存在人头,输出前一帧人头中心点在当前帧的偏移量,第5个分支输出单通道特征图,输入当前位置是否包含俯仰角和偏转角均在给定角度范围内的人脸,第6个分支输出10个通道的特征图,如果当前位置包含人脸,输出人脸关键点位置;第7个分支输出单通道特征图,如果当前位置包含人脸,输出人脸模糊度的值;将视频当前帧,前一帧,以及基于前一帧当中所有人头中心点生成的热点图合并到一起,生成7通道的图像,作为神经网络的输入;
训练深度神经网络:
基于深度神经网络模型的多任务学习方法,预测人头的位置、人头在相邻帧的偏移量、是否包含人脸、人脸关键点位置、人脸模糊度的值训练神经网络到收敛;对于网络模型的第1个分支、第5个分支,使用交叉熵结合使用Focal Loss算法计算分类损失,对于网络模型的其它分支,使用MSE计算损失;总损失计算公式为
Figure BDA0002880946700000021
其中λi取值是通过实验尝试不同的组合、根据实验结果选择的最佳组合,使用Adam优化算法,训练网络模型直至收敛。
优选的,步骤1所述对视频数据中每个行人赋予一个唯一ID,是指行人从视频画面中出现开始到离开视频画面,始终关联相同的ID,一个ID对应了一个行人在视频画面中的运动轨迹。
优选的,步骤1标注出人头中人脸俯仰角和偏转角是否在给定角度范围内,具体为:标注出该人头矩形框中是否包含俯仰角和偏转角均在±30°内的人脸,记为Fi,j={0,1},其中0表示不包含俯仰角和偏转角均在±30°内的人脸,1表示包含俯仰角和偏转角均在±30°内的人脸。
优选的,所述热点图是一张单通道图像,像素取值范围在[0,1],初始值均设置为0,对于前一帧中每个人头矩形框,以人头矩形框的中心点为圆心,计算出和该人头矩形框覆盖率达到0.7的半径r,使用高斯核
Figure BDA0002880946700000031
对热点图进行高斯卷积操作,生成最终的热点图。
进一步的,λ12和λ3取值为1,λ4取值为0.5,λ56和λ7取值为0.1。
第二方面,提供了一种基于监控视频流生成高质量人脸图像的提取方法,该方法包括如下步骤:
采用根据所有可能的实现方式中任一项所述的一种基于监控视频流生成高质量人脸图像的模型训练方法训练出的神经网络,对监控视频画面中的每个行人进行检测和跟踪,对于每个行人轨迹,筛选出给定角度范围内的人脸图片,统一缩放到相同的尺寸,并基于网络检测出的关键点位置进行对齐,对于对齐后的图片,使用网络模型输出的人脸模糊度的值作为权重,将各个对齐图片的权重归一化到[0,1],进行相加,得到最终用于人脸识别的人脸图像。
优选的,对监控视频画面中的每个行人进行检测和跟踪,具体为:基于网络输出的每个人头的位置和相邻帧之间的偏移量,实现对每个行人的检测和跟踪。
优选的,高质量人脸图像提取过程中,神经网络的输入为:将视频当前帧、前一帧、以及基于前一帧当中所有人头中心点生成的热点图合并到一起,生成的7通道的图像。
与现有技术相比,上述技术方案中的一个技术方案具有如下有益效果:通过使用单个神经网络模型,使用多任务学习方法,实现监控视频画面中每个行人头部的检测和跟踪,同时预测人脸是否出现、人脸关键点位置、人脸角度范围和人脸模糊度,降低人脸识别系统所依赖的模型数量,简化了系统流程,提高了人脸识别系统的运行速度以及系统的鲁棒性。并通过人脸模糊度的量化度量方法,给出了基于多帧低质量人脸图像合成出高质量人脸的算法,提高了人脸识别的准确率,解决了因角度、遮挡、光照、运动模糊等原因造成人脸图像质量低下及其伴随的人脸识别检出率低下的问题。
具体实施方式
为了阐明本发明的技术方案和工作原理,下面将对本公开实施方式做进一步的详细描述。上述所有可选技术方案,可以采用任意结合形成本公开的可选实施例,在此不再一一赘述。
本申请的说明书中的术语“步骤1”、“步骤2”、“步骤3”等类似描述是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里描述的那些以外的顺序实施。
第一方面:本公开实施例提供了一种基于监控视频流生成高质量人脸图像的模型训练方法,该方法包括如下步骤:
步骤1,收集训练集:
收集监控场景的视频数据,对每段视频数据中每个行人赋予一个唯一ID,对每个ID关联的行人轨迹,使用矩形框标注出其在每帧图像中人头的位置,记Hi,j{cx,cy,w,h},i表示轨迹的ID,j表示帧的序号,cx,cy表示人头矩形框中心点坐标位置,w,h表示人头矩形框的宽度和高度;标注出画面中每个行人人头的位置,并标注出人头中人脸俯仰角和偏转角是否在给定角度范围内,以0和1表示,0表示不符合要求,1表示符合要求。对于符合要求的人脸,标注出左眼中心、右眼中心、鼻尖,嘴部左边和嘴部右边5个关键点,记为Li,j={x1,y1,…,x5,y5},i表示轨迹的ID,j表示帧的序号,{x1,y1,…,x5,y5}分别表示每个关键点的位置。
对于每个行人的轨迹,人工筛选出该轨迹中质量最高的人脸图片,作为基准图片,使用人脸识别算法模型计算轨迹其它人脸图片和基准图片之间的相似度,作为该人脸图片人脸模糊度的量化真实值。
通过对每个行人的头部进行检测和跟踪,有效缓解基于行人身体进行跟踪时由于行人间遮挡造成的轨迹中断的问题,以及基于人脸跟踪时由于人脸角度变化造成的轨迹中断问题,使得每个行人在监控视频画面中只对应一个轨迹,进而对每个行人轨迹只需提取一张人脸进行人脸识别,有效避免行人被多次识别的问题,提高了人脸识别系统的运行效率。
优选的,收集训练集还包括目前公开的包含清晰人脸的行人跟踪数据集。
优选的,所述对视频数据中每个行人赋予一个唯一ID,是指行人从视频画面中出现开始到离开视频画面,始终关联相同的ID,一个ID对应了一个行人在视频画面中的运动轨迹。
进一步地,标注出人头中人脸俯仰角和偏转角是否在给定角度范围内,具体为:标注出该人头矩形框中是否包含俯仰角和偏转角均在±30°内的人脸,记为Fi,j={0,1},其中0表示不包含俯仰角和偏转角均在±30°内的人脸,1表示包含俯仰角和偏转角均在±30°内的人脸。
优选的,步骤1还包括对于每个轨迹ID,人工挑选出一张质量最高的人脸图片作为该行人的人脸基准图片,对于所有俯仰角和偏转角均在给定角度范围内(±30°内)的人脸,使用人脸识别算法模型,计算其与该基准图片的相似度,作为模糊度的量化度量值,并将该轨迹所有模糊度的量化度量值归一化到[0,1],记为Bi,j∈[0,1];对于该轨迹人脸基准图片,其模糊度度量值为1,对于俯仰角和偏转角均不在±30°内的人脸图片,其模糊度度量值为0。
步骤2,构建深度神经网络,骨干神经网络结构选择ResNet50,这里可以根据实际场景对性能的要求,适配其它的骨干神经网络。使用FPN,聚合不同网络层的特征,对于神经网络的head部分,输出7个分支,每个分支首先使用3×3卷积层、批量归一化层和ReLU层,再接一个1×1卷积层;第1个分支输出单通道特征图,输出对应位置是否存在人头,第2个分支输出二通道特征图,如果对应位置存在人头,输出人头的宽度和高度,第3个分支输出二通道特征图,如果对应位置存在人头,输出人头中心点的偏移量,第4个位置输出二通道特征图,如果对应位置存在人头,输出前一帧人头中心点在当前帧的偏移量,第5个分支输出单通道特征图,输入当前位置是否包含俯仰角和偏转角均在给定角度范围内(±30°内)的人脸,第6个分支输出10个通道的特征图,如果当前位置包含人脸,输出人脸关键点位置。第7个分支输出单通道特征图,如果当前位置包含人脸,输出人脸模糊度的值。
通过使用单个神经网络模型,替换传统方法中,先使用目标检测模型和目标跟踪模型获取行人轨迹,再使用人脸检测模型、人脸关键点检测模型以及人脸质量评估模型筛选出轨迹中较高质量人脸的策略,极大简化了获取高质量人脸的流程。同时,使用单个模型多任务学习的策略,训练出的神经网络模型更加鲁棒,提升了人脸检测、关键点检测的检测准确率;给出的人脸模糊度度量值,也是最终基于轨迹中多幅人脸生成单个人脸的关键因素所在。
步骤3,将视频当前帧,前一帧,以及基于前一帧当中所有人头中心点生成的热点图合并到一起,生成7通道的图像,作为神经网络的输入。
优选的,所述热点图是一张单通道图像,像素取值范围在[0,1],初始值均设置为0,对于前一帧中每个人头矩形框,以人头矩形框的中心点为圆心,计算出和该人头矩形框覆盖率达到0.7的半径r,使用高斯核
Figure BDA0002880946700000061
对热点图进行高斯卷积操作,生成最终的热点图。
步骤4,选择深度神经网络模型,基于多任务学习方法,预测人头的位置、人头在相邻帧的偏移量,是否包含人脸,人脸关键点位置,人脸模糊度的值训练神经网络到收敛。对于网络模型的第1个分支、第5个分支,使用交叉熵结合使用Focal Loss算法计算分类损失,对于网络模型的其它分支,使用MSE计算损失;总损失计算公式为
Figure BDA0002880946700000062
其中λi取值是通过实验尝试不同的组合、根据实验结果选择的最佳组合,使用Adam优化算法,训练网络模型直至收敛。
优选的,其中λ12和λ3取值为1,λ4取值为0.5,λ56和λ7取值为0.1。
第二方面:本公开实施例提供了一种基于监控视频流生成高质量人脸图像的提取方法,该方法包括:
采用根据所有可能的实现方式中任一项所述的一种基于监控视频流生成高质量人脸图像的模型训练方法训练出的神经网络,部署训练好的神经网络模型到实际的场景,基于网络输出的每个人头的位置和连续帧之间的偏移量,实现对每个行人的检测和跟踪。对每个行人的轨迹,提取出所有俯仰角和偏转角均在±30°内的人脸图片,归一化到120×120大小,并基于网络检测出的5个关键点位置进行对齐。对于对齐后的图片,使用神经网络模型输出的模糊度值作为权重,将各个对齐图片的权重归一化到[0,1],进行相加,得到最终用于人脸识别的人脸图像。
优选的,对监控视频画面中的每个行人进行检测和跟踪,具体为:基于网络输出的每个人头的位置和相邻帧之间的偏移量,实现对每个行人的检测和跟踪。
优选的,高质量人脸图像提取过程中,神经网络的输入为:将视频当前帧、前一帧、以及基于前一帧当中所有人头中心点生成的热点图合并到一起,生成的7通道的图像。
第三方面,本公开实施例提供了一种基于监控视频流生成高质量人脸图像的提取装置,其特征在于,该装置包括训练模块和提取模块。
所述训练模块,用于执行所有可能的实现方式中任一项所述的一种基于监控视频流生成高质量人脸图像的模型训练方法的步骤。
所述提取模块,用于执行所有可能的实现方式中任一项所述的一种基于监控视频流生成高质量人脸图像的提取方法的步骤。
需要说明的是,上述实施例提供的一种基于监控视频流生成高质量人脸图像的提取装置在执行一种基于监控视频流生成高质量人脸图像的模型训练方法和一种基于监控视频流生成高质量人脸图像的提取方法时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
第四方面,本公开实施例提供了一种终端设备,该终端设备包括所有可能的实现方式中任一项所述的一种基于监控视频流生成高质量人脸图像的提取装置。
以上对本发明进行了示例性描述,显然,本发明具体实现并不受上述方式的限制,凡是采用了本发明的方法构思和技术方案进行的各种非实质性的改进;或者未经改进、等同替换,将本发明的上述构思和技术方案直接应用于其他场合的,均在本发明的保护范围之内。

Claims (10)

1.一种基于监控视频流生成高质量人脸图像的模型训练方法,其特征在于,该方法包括如下步骤:
收集训练集:
收集监控场景的视频数据,对每段视频数据中每个行人赋予一个唯一ID,对每个ID关联的行人轨迹,使用矩形框标注出其在每帧图像中人头的位置,记Hi,j{cx,cy,w,h},i表示轨迹的ID,j表示帧的序号,cx,cy表示人头矩形框中心点坐标位置,w,h表示人头矩形框的宽度和高度;标注出画面中每个行人人头的位置,并标注出人头中人脸俯仰角和偏转角是否在给定角度范围内,以0和1表示,0表示不符合要求,1表示符合要求;对于符合要求的人脸,标注出左眼中心、右眼中心、鼻尖,嘴部左边和嘴部右边5个关键点,记为Li,j={x1,y1,…,x5,y5},i表示轨迹的ID,j表示帧的序号,{x1,y1,…,x5,y5}分别表示每个关键点的位置;
对于每个行人的轨迹,人工挑选出一张质量最高的人脸图片作为该行人的人脸基准图片,对于所有俯仰角和偏转角均在给定角度范围内的人脸,使用人脸识别算法模型,计算其与该基准图片的相似度,作为模糊度的量化度量值,并将该轨迹所有模糊度的量化度量值归一化到[0,1],记为Bi,j∈[0,1];对于该轨迹人脸基准图片,其模糊度度量值为1,对于俯仰角和偏转角均不在±30°内的人脸图片,其模糊度度量值为0;
构建深度神经网络:
骨干神经网络结构选择ResNet50,使用FPN聚合不同网络层的特征,对于神经网络的head部分,输出7个分支,每个分支首先使用3×3卷积层、批量归一化层和ReLU层,再接一个1×1卷积层;第1个分支输出单通道特征图,输出对应位置是否存在人头,第2个分支输出二通道特征图,如果对应位置存在人头,输出人头的宽度和高度,第3个分支输出二通道特征图,如果对应位置存在人头,输出人头中心点的偏移量,第4个位置输出二通道特征图,如果对应位置存在人头,输出前一帧人头中心点在当前帧的偏移量,第5个分支输出单通道特征图,输入当前位置是否包含俯仰角和偏转角均在给定角度范围内的人脸,第6个分支输出10个通道的特征图,如果当前位置包含人脸,输出人脸关键点位置;第7个分支输出单通道特征图,如果当前位置包含人脸,输出人脸模糊度的值;将视频当前帧,前一帧,以及基于前一帧当中所有人头中心点生成的热点图合并到一起,生成7通道的图像,作为神经网络的输入;
训练深度神经网络:
基于深度神经网络模型的多任务学习方法,预测人头的位置、人头在相邻帧的偏移量、是否包含人脸、人脸关键点位置、人脸模糊度的值训练神经网络到收敛;对于网络模型的第1个分支、第5个分支,使用交叉熵结合使用Focal Loss算法计算分类损失,对于网络模型的其它分支,使用MSE计算损失;总损失计算公式为
Figure FDA0002880946690000021
其中λi取值是通过实验尝试不同的组合、根据实验结果选择的最佳组合,使用Adam优化算法,训练网络模型直至收敛。
2.根据权利要求1所述的一种基于监控视频流生成高质量人脸图像的模型训练方法,其特征在于,步骤1所述对视频数据中每个行人赋予一个唯一ID,是指行人从视频画面中出现开始到离开视频画面,始终关联相同的ID,一个ID对应了一个行人在视频画面中的运动轨迹。
3.根据权利要求1所述的一种基于监控视频流生成高质量人脸图像的模型训练方法,其特征在于,步骤1标注出人头中人脸俯仰角和偏转角是否在给定角度范围内,具体为:标注出该人头矩形框中是否包含俯仰角和偏转角均在±30°内的人脸,记为Fi,j={0,1},其中0表示不包含俯仰角和偏转角均在±30°内的人脸,1表示包含俯仰角和偏转角均在±30°内的人脸。
4.根据权利要求1-3任一项所述的一种基于监控视频流生成高质量人脸图像的模型训练方法,其特征在于,所述热点图是一张单通道图像,像素取值范围在[0,1],初始值均设置为0,对于前一帧中每个人头矩形框,以人头矩形框的中心点为圆心,计算出和该人头矩形框覆盖率达到0.7的半径r,使用高斯核
Figure FDA0002880946690000022
对热点图进行高斯卷积操作,生成最终的热点图。
5.根据权利要求4所述的一种基于监控视频流生成高质量人脸图像的模型训练方法,其特征在于,λ12和λ3取值为1,λ4取值为0.5,λ56和λ7取值为0.1。
6.一种基于监控视频流生成高质量人脸图像的提取方法,其特征在于,该方法包括如下步骤:
采用根据权利要求1-5任一项所述的一种基于监控视频流生成高质量人脸图像的模型训练方法训练出的神经网络,对监控视频画面中的每个行人进行检测和跟踪,对于每个行人轨迹,筛选出给定角度范围内的人脸图片,统一缩放到相同的尺寸,并基于网络检测出的关键点位置进行对齐,对于对齐后的图片,使用网络模型输出的人脸模糊度的值作为权重,将各个对齐图片的权重归一化到[0,1],进行相加,得到最终用于人脸识别的人脸图像。
7.根据权利要求6所述的一种基于监控视频流生成高质量人脸图像的提取方法,其特征在于,对监控视频画面中的每个行人进行检测和跟踪,具体为:基于网络输出的每个人头的位置和相邻帧之间的偏移量,实现对每个行人的检测和跟踪。
8.根据权利要求6所述的一种基于监控视频流生成高质量人脸图像的提取方法,其特征在于,高质量人脸图像提取过程中,神经网络的输入为:将视频当前帧、前一帧、以及基于前一帧当中所有人头中心点生成的热点图合并到一起,生成的7通道的图像。
9.一种基于监控视频流生成高质量人脸图像的提取装置,其特征在于,该装置包括训练模块和提取模块,
所述训练模块,用于执行权利要求1-5任一项所述的一种基于监控视频流生成高质量人脸图像的模型训练方法的步骤;
所述提取模块,用于执行权利要求6-8任一项所述的一种基于监控视频流生成高质量人脸图像的提取方法的步骤。
10.一种终端设备,其特征在于,该终端设备包括权利要求9所述一种基于监控视频流生成高质量人脸图像的提取装置。
CN202011635065.5A 2020-12-31 2020-12-31 一种基于监控视频流生成高质量人脸图像的模型训练方法、提取方法、装置和终端设备 Active CN112733680B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011635065.5A CN112733680B (zh) 2020-12-31 2020-12-31 一种基于监控视频流生成高质量人脸图像的模型训练方法、提取方法、装置和终端设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011635065.5A CN112733680B (zh) 2020-12-31 2020-12-31 一种基于监控视频流生成高质量人脸图像的模型训练方法、提取方法、装置和终端设备

Publications (2)

Publication Number Publication Date
CN112733680A true CN112733680A (zh) 2021-04-30
CN112733680B CN112733680B (zh) 2024-02-13

Family

ID=75608776

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011635065.5A Active CN112733680B (zh) 2020-12-31 2020-12-31 一种基于监控视频流生成高质量人脸图像的模型训练方法、提取方法、装置和终端设备

Country Status (1)

Country Link
CN (1) CN112733680B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113642545A (zh) * 2021-10-15 2021-11-12 北京万里红科技有限公司 一种基于多任务学习的人脸图像处理方法
CN114359627A (zh) * 2021-12-15 2022-04-15 南京视察者智能科技有限公司 一种基于图卷积的目标检测后处理方法及装置
CN114359627B (zh) * 2021-12-15 2024-06-07 南京视察者智能科技有限公司 一种基于图卷积的目标检测后处理方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016110030A1 (zh) * 2015-01-09 2016-07-14 杭州海康威视数字技术股份有限公司 一种人脸图像的检索系统及方法
CN108960087A (zh) * 2018-06-20 2018-12-07 中国科学院重庆绿色智能技术研究院 一种基于多维度评估标准的人脸图像质量评估方法及系统
CN109684913A (zh) * 2018-11-09 2019-04-26 长沙小钴科技有限公司 一种基于社区发现聚类的视频人脸标注方法和系统
CN110163114A (zh) * 2019-04-25 2019-08-23 厦门瑞为信息技术有限公司 一种人脸角度及人脸模糊度分析方法、系统和计算机设备
US10671838B1 (en) * 2019-08-19 2020-06-02 Neon Evolution Inc. Methods and systems for image and voice processing

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016110030A1 (zh) * 2015-01-09 2016-07-14 杭州海康威视数字技术股份有限公司 一种人脸图像的检索系统及方法
CN108960087A (zh) * 2018-06-20 2018-12-07 中国科学院重庆绿色智能技术研究院 一种基于多维度评估标准的人脸图像质量评估方法及系统
CN109684913A (zh) * 2018-11-09 2019-04-26 长沙小钴科技有限公司 一种基于社区发现聚类的视频人脸标注方法和系统
CN110163114A (zh) * 2019-04-25 2019-08-23 厦门瑞为信息技术有限公司 一种人脸角度及人脸模糊度分析方法、系统和计算机设备
US10671838B1 (en) * 2019-08-19 2020-06-02 Neon Evolution Inc. Methods and systems for image and voice processing

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
CHEN SHUANGYE,ET AL.: "A Face Quality Evaluation Method Based on DCNN", 2020 CHINESE CONTROL AND DECISION CONFERENCE (CCDC)2020 CHINESE CONTROL AND DECISION CONFERENCE (CCDC), pages 544 - 549 *
PEIPEI LI, ET AL.: "M2FPA: A Multi-Yaw Multi-Pitch High-Quality Dataset and Benchmark for Facial Pose Analysis", 2019 IEEE/CVF INTERNATIONAL CONFERENCE ON COMPUTER VISION (ICCV), pages 10042 - 10050 *
王亚等: "基于CNN 的监控视频中人脸图像质量评估", 计算机系统应用, vol. 27, no. 11, pages 71 - 77 *
陈然等: "一种基于空域和频域多特征融合的人脸活体检测算法", 视频应用与工程, vol. 43, no. 3, pages 92 - 96 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113642545A (zh) * 2021-10-15 2021-11-12 北京万里红科技有限公司 一种基于多任务学习的人脸图像处理方法
CN113642545B (zh) * 2021-10-15 2022-01-28 北京万里红科技有限公司 一种基于多任务学习的人脸图像处理方法
CN114359627A (zh) * 2021-12-15 2022-04-15 南京视察者智能科技有限公司 一种基于图卷积的目标检测后处理方法及装置
CN114359627B (zh) * 2021-12-15 2024-06-07 南京视察者智能科技有限公司 一种基于图卷积的目标检测后处理方法及装置

Also Published As

Publication number Publication date
CN112733680B (zh) 2024-02-13

Similar Documents

Publication Publication Date Title
CN108986064B (zh) 一种人流量统计方法、设备及系统
CN104573637B (zh) 一种基于多摄像头的车牌识别方法
CN109644255B (zh) 标注包括一组帧的视频流的方法和装置
CN107909081B (zh) 一种深度学习中图像数据集的快速获取和快速标定方法
Liu et al. Pose-guided R-CNN for jersey number recognition in sports
CN109145803B (zh) 手势识别方法及装置、电子设备、计算机可读存储介质
CN107169415A (zh) 基于卷积神经网络特征编码的人体动作识别方法
CN108806334A (zh) 一种基于图像的智能船舶身份识别方法
CN108154102A (zh) 一种道路交通标志识别方法
WO2018076392A1 (zh) 一种基于人体头顶部识别的行人统计方法及装置
CN108564066A (zh) 一种人物识别模型训练方法以及人物识别方法
CN111145223A (zh) 多摄像头识别人员行为轨迹分析方法
CN110570456A (zh) 基于yolo目标检测算法和光流追踪算法融合的机动车轨迹提取方法
WO2015131468A1 (en) Method and system for estimating fingerprint pose
CN111767798A (zh) 一种面向室内联网视频监控的智能导播方法及系统
CN107358163A (zh) 基于人脸识别的游客线路跟踪统计方法、电子设备及存储介质
Liu et al. Extended faster R-CNN for long distance human detection: Finding pedestrians in UAV images
CN116614705B (zh) 基于多模态视频特征分析的采煤工作面相机调控系统
CN106529441A (zh) 基于模糊边界分片的深度动作图人体行为识别方法
CN112733680B (zh) 一种基于监控视频流生成高质量人脸图像的模型训练方法、提取方法、装置和终端设备
CN109344758B (zh) 基于改进局部二值模式的人脸识别方法
CN113920585A (zh) 行为识别方法及装置、设备和存储介质
CN109840498B (zh) 一种实时行人检测方法及神经网络、目标检测层
CN111127355A (zh) 一种对缺损光流图进行精细补全的方法及其应用
CN115082517B (zh) 基于数据增强的赛马场景多目标追踪方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant