CN113205002B - 非受限视频监控的低清人脸识别方法、装置、设备及介质 - Google Patents

非受限视频监控的低清人脸识别方法、装置、设备及介质 Download PDF

Info

Publication number
CN113205002B
CN113205002B CN202110377777.XA CN202110377777A CN113205002B CN 113205002 B CN113205002 B CN 113205002B CN 202110377777 A CN202110377777 A CN 202110377777A CN 113205002 B CN113205002 B CN 113205002B
Authority
CN
China
Prior art keywords
network
low
image data
definition face
face image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110377777.XA
Other languages
English (en)
Other versions
CN113205002A (zh
Inventor
邵文泽
胡洪明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202110377777.XA priority Critical patent/CN113205002B/zh
Publication of CN113205002A publication Critical patent/CN113205002A/zh
Application granted granted Critical
Publication of CN113205002B publication Critical patent/CN113205002B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种非受限视频监控的低清人脸识别方法,包含S1.准备训练集,S2.利用高清人脸图像数据对教师网络进行第一训练得到训练好的教师网络模型,第一训练包含利用第一特征提取网络提取高清人脸图像数据的第一特征;S3.将训练好的教师网络模型中的预权重赋予学生网络形成初始学生网络模型,将人工下采样低清人脸图像数据及真实场景下低清人脸图像数据联合输入到初始学生网络模型进行第二训练,得到训练好的低清人脸识别模型;S4.将测试集输入到训练好的低清人脸识别模型得到人脸验证和识别结果;在学生网络中引入了域鉴别器,学习具有域不变特性的特征表示,解决了现有模型对于非受限视频监控场景下低清人脸图片识别精度不高的问题。

Description

非受限视频监控的低清人脸识别方法、装置、设备及介质
技术领域
本发明涉及人工智能领域,尤其是涉及一种非受限视频监控的低清人脸识别方法、装置、设备及介质。
背景技术
在如今信息化普及的时代,如何在保证信息安全的前提下精确鉴别个人身份,已成为当前重点研究问题。人脸特征由于其具有特殊的优势,因而在生物识别中有着重要的地位。相比于其他生物特征,人脸特征在身份鉴别上更加直观便捷,采集时全程无需接触,且在公共安全场景下可以做到无需配合隐蔽采集。正是因为人脸特征具备这些良好特性,人脸识别技术被广泛应用,如在交通监管中使用人脸识别技术,能够对交通违规、酒驾、超员、闯红灯等交通违法现象进行全面、及时、有效管控;在视频监控中使用人脸识别技术,可对犯罪嫌疑人进行快速识别和实时布控。相比于传统人工巡查监管,自动人脸识别都能带来效率、安全、成本和质量等方面的提升,吸引了学术界和商业界越来越多的关注。
现有人脸识别算法所针对对象主要是高清人脸图像,在被识别者主动配合的约束场景下取得了很高的识别精度。然而在视频监控等真实场景下,由于环境、设备等因素的制约,监控摄像头采集到的人脸图像往往分辨率不高,这给后续的人脸检测和人脸识别工作带来了极大的挑战。相比于高清人脸图像,低清人脸图像往往背景模糊、光照不均,包含更多噪声,且低清人脸特征中丢失了很多对人脸识别起关键作用的鉴别性信息,直接使用常规人脸检测与识别算法得到的结果往往不佳,这极大影响了人脸识别系统的性能。因此非受限场景下的低清人脸识别工作变得非常具有挑战性。
一般来说,解决低分辨率人脸识别问题的方案可以分为两类。一种是超分辨方法,该方法利用超分辨率从真实低清图像中合成高清人脸图像,另一种是分辨率鲁棒方法,将待识别低清人脸图像和图库的高清人脸图像转换到公共域不变子空间,在此空间内提取特征再进行匹配识别,上述两种方法在长、宽只有三十个像素甚至更低的真实低清人脸图像的情况下,由于缺少面部细节,导致模型无法提取鉴别特征,因此目前该类方法取得的结果仍不是很理想。
发明内容
为了解决目前低清人脸识别方法对于处理非受视频监控下的低清人脸识别精度不高的问题,本发明提供一种非受限视频监控的低清人脸识别方法、装置、设备及介质,通过在学生网络中引入域鉴别器,利用人工下采样低清人脸图像数据及真实场景下低清人脸图像数据联合训练学生网络,提升了训练好后的学生网络对高清人脸图像数据、人工下采样的低清人脸图片及非受限视频监控的低清人脸的识别精度。
根据本申请实施例的第一方面,一种非受限视频监控的低清人脸识别方法,包括以下步骤:
S1.准备训练集,所述训练集包含教师网络训练集和学生网络训练集,其中所述教师网络训练集包含多个含有标签的高清人脸图像数据,所述学生网络训练集包含多个含有标签的人工下采样低清人脸图像数据及多个含有标签的真实场景下低清人脸图像数据,所述教师网络训练集中的多个含有标签的高清人脸图像数据经过下采样后形成学生网络训练集中的多个含有标签的人工下采样低清人脸图像数据;
S2.利用高清人脸图像数据对教师网络进行第一训练得到训练好的教师网络模型,所述第一训练包含利用第一特征提取网络提取所述高清人脸图像数据的第一特征;
S3.将训练好的教师网络模型中的预权重赋予学生网络形成初始学生网络模型,将人工下采样低清人脸图像数据及真实场景下低清人脸图像数据联合输入到初始学生网络模型进行第二训练,得到训练好的低清人脸识别模型;
所述学生网络模型包含第二特征提取网络及特征分类网络,所述第二训练包括:利用初始学生网络模型的第二特征提取网络提取人工下采样低清人脸图像数据及真实场景下低清人脸图像数据对应的第二特征及第三特征,将第二特征和第一特征的均方差误差作为第一损失函数,并利用第一损失函数反向更新第二特征提取网络参数得到临时第二特征提取网络;将第二特征及第三特征在再生希尔伯特空间上的最大均值误差作为第二损失函数,并利用第二损失函数反向更新初始域鉴别器模型参数及临时第二特征提取网络参数得到更新后的域鉴别器模型及更新后的第二特征提取网络;将第二特征的交叉熵损失作为第三损失函数,并利用第三损失函数反向更新特征分类网络得到更新后的特征分类网络,从而得到第一学生网络模型及第一域鉴别器模型;再以第一学生网络模型作为初始学生网络模型、第一域鉴别器模型作为初始域鉴别器模型,返回根据初始学生网络模型中第二特征提取网络提取人工下采样低清人脸图像数据及真实场景下低清人脸图像数据对应的第二特征及第三特征,再根据第一特征、第二特征及第三特征分别获得更新后的第二特征提取网络、更新后的域鉴别器模型及更新后的特征分类网络,直至满足预设的迭代停止条件;
将满足预设的迭代停止条件的第一学生网络模型作为训练好的低清人脸识别模型;
S4.将测试集输入到训练好的低清人脸识别模型得到人脸验证和识别结果。
在蒸馏知识网络中教师网络的第一特征提取网络、学生网络的第二特征提取网络中,利用第一特征和第二特征均方差误差作为第一损失函数,并利用第一损失函数反向更新第二特征提取网络参数,保证了对高清人脸图像数据及人工下采样的低清人脸图像数据即不同分辨率的图片都有较好的鲁棒性;由于人工下采样并不能模拟真实场景下低清图片退化机制,受迁移学习中领域自适应技术启发,本发明在学生网络中引入了域鉴别器,学习具有域不变特性的特征表示,提升模型对于非受限视频监控场景下低清人脸图片的验证和识别性能。
进一步地,所述学生网络中的第二特征提取网络及教师网络中的第一特征提取网络按各层分别提取人工下采样低清人脸图像数据的阶段特征
Figure BDA0003011471970000031
及高清人脸图像数据的阶段特征
Figure BDA0003011471970000032
k∈[1,...,K],K为第一特征提取网络及第二特征提取网络的层数;
所述第一训练包含利用第一特征提取网络按照各层提取所述高清人脸图像数据的阶段特征
Figure BDA0003011471970000033
所述第二训练包括:利用初始学生网络模型的第二特征提取网络按照各层分别提取人工下采样低清人脸图像数据的阶段特征
Figure BDA0003011471970000034
以及根据初始学生网络模型中的第二特征提取网络提取真实场景下低清人脸图像数据的第三特征,将每一层对应的阶段特征
Figure BDA0003011471970000035
和阶段特征
Figure BDA0003011471970000036
的均方差误差相加作为第一损失函数,并利用第一损失函数反向更新第二特征提取网络参数得到临时第二特征提取网络;将初始学生网络模型的第二特征提取网络提取的最后一层阶段特征
Figure BDA0003011471970000037
及第三特征在再生希尔伯特空间上的最大均值误差作为第二损失函数,并利用第二损失函数反向更新初始域鉴别器模型参数及临时第二特征提取网络参数得到更新后的域鉴别器模型及更新后的第二特征提取网络;将初始学生网络模型的第二特征提取网络提取的最后一层阶段特征
Figure BDA0003011471970000038
的交叉熵损失作为第三损失函数,并利用第三损失函数反向更新特征分类网络得到更新后的特征分类网络,从而得到第一学生网络模型及第一域鉴别器模型;再以第一学生网络模型作为初始学生网络模型、第一域鉴别器模型作为初始域鉴别器模型参数,返回根据初始学生网络模型中的第二特征提取网络按照各层分别提取人工下采样低清人脸图像数据的阶段特征
Figure BDA0003011471970000039
以及根据初始学生网络模型中的第二特征提取网络提取真实场景下低清人脸图像数据的第三特征,再根据阶段特征
Figure BDA00030114719700000310
阶段特征
Figure BDA00030114719700000311
及第三特征分别获得更新后的第二特征提取网络、更新后的域鉴别器模型及更新后的特征分类网络,直至满足预设的迭代停止条件;
将满足预设的迭代停止条件的第一学生网络模型作为训练好的低清人脸识别模型。
第一特征提取网络和第二特征提取网络的骨干网络可以采用现有的深度卷积网络,如VGGNet(Visual Geometry Group Network)、ResNet(Residual Neural Network)等经典网络结构,上述深度卷积网络低层特征分辨率更高,包含更多位置、细节信息,但是由于经过的卷积更少,其语义性更低,噪声更多,高层特征具有更强的语义信息,但是分辨率很低,对细节的感知能力较差,通过在第一特征提取网络和第二特征提取网不同层计算,即在所述学生网络中的第二特征提取网络及教师网络中的第一特征提取网络按各层分别提取人工下采样低清人脸图像数据的阶段特征
Figure BDA0003011471970000041
及高清人脸图像数据的阶段特征
Figure BDA0003011471970000042
k∈[1,...,K],K为第一特征提取网络及第二特征提取网络的层数;将每一层对应的阶段特征
Figure BDA0003011471970000043
和阶段特征
Figure BDA0003011471970000044
的均方差误差相加作为第一损失函数,并利用第一损失函数反向更新第二特征提取网络参数,有效将不同尺度特征融合,有助于进一步地提升非受限视频监控的低清人脸识别模型识别和验证精度。
进一步地,所述学生网络的第二特征提取网络和教师网络的第一特征提取网络中的骨干网络均采用Res2Net模块作为残差块的ResNet50,所述第一损失函数具体为:
Figure BDA0003011471970000045
骨干网络使用Res2Net模块,增强第二特征模块对于低清人脸多尺度特征提取,有助于进一步地提升非受限视频监控的低清人脸识别模型识别和验证精度。
进一步地,所述第二损失函数具体为:
Figure BDA0003011471970000046
公式(2)中,
Figure BDA0003011471970000047
Figure BDA0003011471970000048
分别表示人工下采样低清人脸图像数据及真实场景下低清人脸图像数据经过第二特征提取网络提取到的第二特征及第三特征,N1和N2分别表示输入学生网络的采样低清人脸图像数据及真实场景下低清人脸图像数量;
Figure BDA00030114719700000410
表示再生希尔伯特空间,φ是一个映射函数,用于将数据样本映射到希尔伯特空间;在希尔伯特空间中,由于范数运算和内积运算相同,故
Figure BDA0003011471970000049
所以等式(2)可以通过核技巧改写为:
Figure BDA0003011471970000051
公式(4)中k是由多个凸核{ku}组合而成的特征核,与特征图相关联的内核可以定义为:
Figure BDA0003011471970000052
公式(5)中内核ku是高斯内核,可以定义为:
Figure BDA0003011471970000053
进一步地,所述第三损失函数具体为:
Figure BDA0003011471970000054
公式(7)中xi表示输入特征分类网络中的经过第二特征提取网络提取的第二特征,yi∈{1,2,…,M}为xi的真实标签,
Figure BDA0003011471970000055
是Softmax层对应第i个类的权重。
进一步地,步骤S4中将测试集输入到训练好的低清人脸识别模型得到人脸验证和识别结果包含以下步骤:
人脸验证时,对带有标签的非受限高清人脸图像数据进行下采样形成各分辨率低清人脸图像数据,将非受限高清人脸图像数据及各分辨率低清人脸图像数据作为测试集联合输入至训练好的低清人脸识别模型得到各分辨率低清人脸图像数据的分类概率,采用准确率ACC指标评价训练好的低清人脸识别模型的验证性能,具体过程如下:将各分辨率低清人脸图像数据和非受限高清人脸图像数据两两配对形成正负测试样本,其中正测试样本为各分辨率低清人脸图像数据和标签相同的非受限高清人脸图像数据配对形成的样本,负样本为各分辨率低清人脸图像数据和标签不相同的非受限高清人脸图像数据配对形成的样本,因此准确率ACC指标可表示为:
Figure BDA0003011471970000061
公式(8)中,TP指特征分类网络根据分类概率将正测试样本判定为正测试样本,TN指特征分类网络根据分类概率将负测试样本判定为负测试样本,FP指特征分类网络根据分类概率将负测试样本判定为正测试样本,FN指征分类网络根据分类概率将正测试样本判定为负测试样本;
人脸识别时,获取带有标签的非受限视频监控的高清人脸图像数据gallery及对应不同距离的低清人脸图像数据probe(查询),将低清人脸图像数据probe作为测试集输入至训练好的低清人脸识别模型,得到低清人脸图像数据probe相对于所有非受限视频监控的高清人脸图像数据gallery(图库)的分类概率,采用Rank-1准确率指标评价训练好的低清人脸识别模型的识别性能,具体如下:选择分类概率最大的gallery标签作为低清人脸图像数据probe的分类标签并对比分类标签和真值标签,如果分类标签和真值标签相同则认为probe识别成功,因此Rank-1准确率指标可表示为:
Rank-1=probe识别成功数/probe总数 (9)
进一步地,步骤S4中预设的迭代停止条件包含训练达到预设的训练次数,或者总损失函数达到预设的阈值,其中所述总损失函数如下所示:
Ltot=λ1Ldistill2Ldomain+Lcls (10)
公式(10)中,λ1、λ2为比例因子。
根据本申请实施例的第二方面,一种非受限视频监控的低清人脸识别装置,包括:
获取模块,用于获取训练集,所述训练集包含教师网络训练集和学生网络训练集,其中所述教师网络训练集包含多个含有标签的高清人脸图像数据,所述学生网络训练集包含多个含有标签的人工下采样低清人脸图像数据及多个含有标签的真实场景下低清人脸图像数据,所述教师网络训练集中的多个含有标签的高清人脸图像数据经过下采样后形成学生网络训练集中的多个含有标签的人工下采样低清人脸图像数据;
第一训练模块,用于将高清人脸图像数据对教师网络进行第一训练得到训练好的教师网络模型,所述第一训练包含利用第一特征提取网络提取所述高清人脸图像数据的第一特征;
第二训练模块,用于将训练好的教师网络模型中的预权重赋予学生网络形成初始学生网络模型,将人工下采样低清人脸图像数据及真实场景下低清人脸图像数据联合输入到初始学生网络模型进行第二训练,得到训练好的低清人脸识别模型;
所述学生网络模型包含第二特征提取网络及特征分类网络,所述第二训练包括:利用初始学生网络模型的第二特征提取网络提取人工下采样低清人脸图像数据及真实场景下低清人脸图像数据对应的第二特征及第三特征,将第二特征和第一特征的均方差误差作为第一损失函数,并利用第一损失函数反向更新第二特征提取网络参数得到临时第二特征提取网络;将第二特征及第三特征在再生希尔伯特空间上的最大均值误差作为第二损失函数,并利用第二损失函数反向更新初始域鉴别器模型参数及临时第二特征提取网络参数得到更新后的域鉴别器模型及更新后的第二特征提取网络;将第二特征的交叉熵损失作为第三损失函数,并利用第三损失函数反向更新特征分类网络得到更新后的特征分类网络,从而得到第一学生网络模型及第一域鉴别器模型;再以第一学生网络模型作为初始学生网络模型、第一域鉴别器模型作为初始域鉴别器模型,返回根据初始学生网络模型中第二特征提取网络提取人工下采样低清人脸图像数据及真实场景下低清人脸图像数据对应的第二特征及第三特征,再根据第一特征、第二特征及第三特征分别获得更新后的第二特征提取网络、更新后的域鉴别器模型及更新后的特征分类网络,直至满足预设的迭代停止条件;
将满足预设的迭代停止条件的第一学生网络模型作为训练好的低清人脸识别模型;
验证及识别模块,用于将测试集输入到训练好的低清人脸识别模型得到人脸验证和识别结果。
根据本申请实施例的第三方面,一种计算机设备,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被至少一个处理器执行时,使得至少一个处理器实现第一方面所述非受限视频监控的低清人脸识别方法。
根据本申请实施例的第四方面,一种计算机可读存储介质,其中存储有处理器可执行的程序,所述处理器可执行的程序由处理器执行时用于实现第一方面的非受限视频监控的低清人脸识别方法。
本发明的有益效果在于:
1、在蒸馏知识网络中教师网络的第一特征提取网络、学生网络的第二特征提取网络中,利用第一特征和第二特征均方差误差作为第一损失函数,并利用第一损失函数反向更新第二特征提取网络参数,保证了对高清人脸图像数据及不同人工下采样的低清人脸图像数据即不同分辨率的图片都有较好的鲁棒性;由于人工下采样并不能模拟真实场景下低清图片退化机制,受迁移学习中领域自适应技术启发,本发明在学生网络中引入了域鉴别器,学习具有域不变特性的特征表示,提升模型对于非受限视频监控场景下低清人脸图片的验证和识别性能;
2、在所述学生网络中的第二特征提取网络及教师网络中的第一特征提取网络按各层分别提取人工下采样低清人脸图像数据的阶段特征
Figure BDA0003011471970000081
及高清人脸图像数据的阶段特征
Figure BDA0003011471970000082
k∈[1,...,K],K为第一特征提取网络及第二特征提取网络的层数;将每一层对应的阶段特征
Figure BDA0003011471970000083
和阶段特征
Figure BDA0003011471970000084
的均方差误差相加作为第一损失函数,并利用第一损失函数反向更新第二特征提取网络参数,有效将不同尺度特征融合,有助于进一步地提升非受限视频监控的低清人脸识别模型识别和验证精度。
3、骨干网络使用Res2Net模块,通过在单个残差块内构造分层的残差类连接,增加每层网络的感受野,以更细粒度的方式表示多尺度特征,且网络计算量相比常规残差块连接并没有增加,利用Res2Net模块增强第二特征模块对于低清人脸多尺度特征提取,有助于进一步地提升非受限视频监控的低清人脸识别模型识别和验证精度。
附图说明
图1为本申请实施例中提供的一种非受限视频监控的低清人脸识别方法的实施环境示意图;
图2为本申请实施例中提供的一种非受限视频监控的低清人脸识别方法的算法流程图;
图3为本申请实施例中提供的一种非受限视频监控的低清人脸识别方法对应算法模型的架构图;
图4为本申请实施例中提供的Res2Net模块示意图;
图5为本申请实施例中提供的域鉴别器模块结构示意图;
图6为本申请实施例中提供的域鉴别器模块中ResBlock模块的结构示意图;
图7为本申请实施例中提供的一种非受限视频监控的低清人脸识别装置的结构示意图;
图8为本申请实施例中提供的一种计算机设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例,本发明中的临时、第一均是为了说明算法训练中的不同阶段,没有限定意义。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供的一种非受限视频监控的低清人脸识别方法,可以应用于如图1所示的应用环境图中。该应用环境包括终端120及服务器140、终端120,第一种应用环境为终端120与服务器140之间通过网络进行连接,这里对终端120及服务器140的数量不做限制,网络包含但不限于:广域网、城域网或局域网,此时终端120可以采集图片并发送至服务器进行非受限视频监控的人脸识别或者验证,第二种应用环境终端120包含手机、平板等,该终端120具备图像采集及对非受限视频监控的低清人脸进行识别或者验证的功能,因此本发明提供的非受限视频监控的人脸识别方法对应用环境不做限制。
如图2及图3所示,根据本申请实施例的第一方面,一种非受限视频监控的低清人脸识别方法,包括以下步骤:
S1.准备训练集,所述训练集包含教师网络训练集和学生网络训练集,其中所述教师网络训练集包含多个含有标签的高清人脸图像数据,所述学生网络训练集包含多个含有标签的人工下采样低清人脸图像数据及多个含有标签的真实场景下低清人脸图像数据,所述教师网络训练集中的多个含有标签的高清人脸图像数据经过下采样后形成学生网络训练集中的多个含有标签的人工下采样低清人脸图像数据;
S2.利用高清人脸图像数据对教师网络进行第一训练得到训练好的教师网络模型,所述第一训练包含利用第一特征提取网络提取所述高清人脸图像数据的第一特征;
S3.将训练好的教师网络模型中的预权重赋予学生网络形成初始学生网络模型,将人工下采样低清人脸图像数据及真实场景下低清人脸图像数据联合输入到初始学生网络模型进行第二训练,得到训练好的低清人脸识别模型;
所述学生网络模型包含第二特征提取网络及特征分类网络,所述第二训练包括:利用初始学生网络模型的第二特征提取网络提取人工下采样低清人脸图像数据及真实场景下低清人脸图像数据对应的第二特征及第三特征,将第二特征和第一特征的均方差误差作为第一损失函数,并利用第一损失函数反向更新第二特征提取网络参数得到临时第二特征提取网络;将第二特征及第三特征在再生希尔伯特空间上的最大均值误差作为第二损失函数,并利用第二损失函数反向更新初始域鉴别器模型参数及临时第二特征提取网络参数得到更新后的域鉴别器模型及更新后的第二特征提取网络;将第二特征的交叉熵损失作为第三损失函数,并利用第三损失函数反向更新特征分类网络得到更新后的特征分类网络,从而得到第一学生网络模型及第一域鉴别器模型;再以第一学生网络模型作为初始学生网络模型、第一域鉴别器模型作为初始域鉴别器模型,返回根据初始学生网络模型中第二特征提取网络提取人工下采样低清人脸图像数据及真实场景下低清人脸图像数据对应的第二特征及第三特征,再根据第一特征、第二特征及第三特征分别获得更新后的第二特征提取网络、更新后的域鉴别器模型及更新后的特征分类网络,直至满足预设的迭代停止条件;
将满足预设的迭代停止条件的第一学生网络模型作为训练好的低清人脸识别模型;
S4.将测试集输入到训练好的低清人脸识别模型得到人脸验证和识别结果。
第一特征提取网络和第二特征提取网络的骨干网络可以采用现有的深度卷积网络,如VGGNet(Visual Geometry Group Network)、ResNet(Residual Neural Network)等经典网络结构;特征分类网络可以采用全连接层和softmax分类器实现;如图5所示,域鉴别器模块结构为首先经过一个3×3卷积增加局部上下文信息,再经过PReLU降低参数以及过拟合风险,接着经过两层ResBlock,如图6所示,在ResBlock结构里,本发明使用了IN(Instance Normalization),因为在图片风格迁移等注重每个像素的任务中,每个图像实例的每个像素点信息都十分重要,而使用BN(Bach Normalization)对每批样本归一化就不太合适。使用IN不仅可以加快模型收敛,并且可以保证每个图像实例相互独立,具体可以参考文章“Instance Normalization:The Missing Ingredient for Fast Stylization”。
在蒸馏知识网络中教师网络的第一特征提取网络、学生网络的第二特征提取网络中,利用第一特征和第二特征均方差误差作为第一损失函数,并利用第一损失函数反向更新第二特征提取网络参数,保证了对高清人脸图像数据及人工下采样的低清人脸图像数据即不同分辨率的图片都有较好的鲁棒性;由于人工下采样并不能模拟真实场景下低清图片退化机制,受迁移学习中领域自适应技术启发,本发明在学生网络中引入了域鉴别器,学习具有域不变特性的特征表示,提升模型对于非受限视频监控场景下低清人脸图片的验证和识别性能。
在一些实施例中,如图3所示,所述学生网络中的第二特征提取网络及教师网络中的第一特征提取网络按各层分别提取人工下采样低清人脸图像数据的阶段特征
Figure BDA0003011471970000101
及高清人脸图像数据的阶段特征
Figure BDA0003011471970000102
k∈[1,...,K],K为第一特征提取网络及第二特征提取网络的层数;
所述第一训练包含利用第一特征提取网络按照各层提取所述高清人脸图像数据的阶段特征
Figure BDA0003011471970000103
所述第二训练包括:利用初始学生网络模型的第二特征提取网络按照各层分别提取人工下采样低清人脸图像数据的阶段特征
Figure BDA0003011471970000111
以及根据初始学生网络模型中的第二特征提取网络提取真实场景下低清人脸图像数据的第三特征,将每一层对应的阶段特征
Figure BDA0003011471970000112
和阶段特征
Figure BDA0003011471970000113
的均方差误差相加作为第一损失函数,并利用第一损失函数反向更新第二特征提取网络参数得到临时第二特征提取网络;将初始学生网络模型的第二特征提取网络提取的最后一层阶段特征
Figure BDA0003011471970000114
及第三特征在再生希尔伯特空间上的最大均值误差作为第二损失函数,并利用第二损失函数反向更新初始域鉴别器模型参数及临时第二特征提取网络参数得到更新后的域鉴别器模型及更新后的第二特征提取网络;将初始学生网络模型的第二特征提取网络提取的最后一层阶段特征
Figure BDA0003011471970000115
的交叉熵损失作为第三损失函数,并利用第三损失函数反向更新特征分类网络得到更新后的特征分类网络,从而得到第一学生网络模型及第一域鉴别器模型;再以第一学生网络模型作为初始学生网络模型、第一域鉴别器模型作为初始域鉴别器模型参数,返回根据初始学生网络模型中的第二特征提取网络按照各层分别提取人工下采样低清人脸图像数据的阶段特征
Figure BDA0003011471970000116
以及根据初始学生网络模型中的第二特征提取网络提取真实场景下低清人脸图像数据的第三特征,再根据阶段特征
Figure BDA0003011471970000117
阶段特征
Figure BDA0003011471970000118
及第三特征分别获得更新后的第二特征提取网络、更新后的域鉴别器模型及更新后的特征分类网络,直至满足预设的迭代停止条件;
将满足预设的迭代停止条件的第一学生网络模型作为训练好的低清人脸识别模型。
一般来说,步骤S4中预设的迭代停止条件包含训练达到预设的训练次数,或者总损失函数达到预设的阈值,其中所述总损失函数如下所示:
Ltot=λ1Ldistill2Ldomain+Lcls (1)
公式(1)中,λ1、λ2为比例因子。
第一特征提取网络和第二特征提取网络的骨干网络可以采用现有的深度卷积网络,如VGGNet(Visual Geometry Group Network)、ResNet(Residual Neural Network)、GoogleNet(Google Network)等经典网络结构,上述深度卷积网络低层特征分辨率更高,包含更多位置、细节信息,但是由于经过的卷积更少,其语义性更低,噪声更多,高层特征具有更强的语义信息,但是分辨率很低,对细节的感知能力较差,通过在第一特征提取网络和第二特征提取网不同层计算,即在所述学生网络中的第二特征提取网络及教师网络中的第一特征提取网络按各层分别提取人工下采样低清人脸图像数据的阶段特征
Figure BDA0003011471970000119
及高清人脸图像数据的阶段特征
Figure BDA0003011471970000121
k∈[1,...,K],K为第一特征提取网络及第二特征提取网络的层数;将每一层对应的阶段特征
Figure BDA0003011471970000122
和阶段特征
Figure BDA0003011471970000123
的均方差误差相加作为第一损失函数,并利用第一损失函数反向更新第二特征提取网络参数,有效将不同尺度特征融合,有助于进一步地提升非受限视频监控的低清人脸识别模型识别和验证精度。
进一步地,所述学生网络的第二特征提取网络和教师网络的第一特征提取网络中的骨干网络均采用Res2Net模块作为残差块的ResNet50,所述第一损失函数具体为:
Figure BDA0003011471970000124
如图3所示,通过在ResNet50网络中的单个残差块内构造分层的残差类连接,增加每层网络的感受野,以更细粒度的方式表示多尺度特征,且网络计算量相比常规残差块连接并没有增加,骨干网络使用Res2Net模块,其中Res2Net模块的内部结构如图4所示,增强第二特征模块对于低清人脸多尺度特征提取,有助于进一步地提升非受限视频监控的低清人脸识别模型识别和验证精度。
进一步地,所述第二损失函数具体为:
Figure BDA0003011471970000125
公式(3)中,
Figure BDA0003011471970000126
Figure BDA0003011471970000127
分别表示人工下采样低清人脸图像数据及真实场景下低清人脸图像数据经过第二特征提取网络提取到的第二特征及第三特征,N1和N2分别表示输入学生网络的采样低清人脸图像数据及真实场景下低清人脸图像数量;
Figure BDA0003011471970000128
表示再生希尔伯特空间,φ是一个映射函数,用于将数据样本映射到希尔伯特空间;在希尔伯特空间中,由于范数运算和内积运算相同,故
Figure BDA0003011471970000129
所以等式(3)可以通过核技巧改写为:
Figure BDA00030114719700001210
公式(5)中k是由多个凸核{ku}组合而成的特征核,与特征图相关联的内核可以定义为:
Figure BDA0003011471970000131
公式(6)中内核ku是高斯内核,可以定义为:
Figure BDA0003011471970000132
进一步地,所述第三损失函数具体为:
Figure BDA0003011471970000133
公式(8)中xi表示输入特征分类网络中的经过第二特征提取网络提取的第二特征,yi∈{1,2,...,M}为xi的真实标签,
Figure BDA0003011471970000134
是Softmax层对应第i个类的权重。
在一些实施例中,步骤S4中将测试集输入到训练好的低清人脸识别模型得到人脸验证和识别结果包含以下步骤:
人脸验证时,对带有标签的非受限高清人脸图像数据进行下采样形成各分辨率低清人脸图像数据,将非受限高清人脸图像数据及各分辨率低清人脸图像数据作为测试集联合输入至训练好的低清人脸识别模型得到各分辨率低清人脸图像数据的分类概率,采用准确率ACC指标评价训练好的低清人脸识别模型的验证性能,具体过程如下:将各分辨率低清人脸图像数据和非受限高清人脸图像数据两两配对形成正负测试样本,其中正测试样本为各分辨率低清人脸图像数据和标签相同的非受限高清人脸图像数据配对形成的样本,负样本为各分辨率低清人脸图像数据和标签不相同的非受限高清人脸图像数据配对形成的样本,因此准确率ACC指标可表示为:
Figure BDA0003011471970000135
公式(9)中,TP指特征分类网络根据分类概率将正测试样本判定为正测试样本,TN指特征分类网络根据分类概率将负测试样本判定为负测试样本,FP指特征分类网络根据分类概率将负测试样本判定为正测试样本,FN指征分类网络根据分类概率将正测试样本判定为负测试样本;
人脸识别时,获取带有标签的非受限视频监控的高清人脸图像数据gallery及对应不同距离的低清人脸图像数据probe,将低清人脸图像数据probe作为测试集输入至训练好的低清人脸识别模型,得到低清人脸图像数据probe相对于所有非受限视频监控的高清人脸图像数据gallery的分类概率,采用Rank-1准确率指标评价训练好的低清人脸识别模型的识别性能,具体如下:选择分类概率最大的gallery标签作为低清人脸图像数据probe的分类标签并对比分类标签和真值标签,如果分类标签和真值标签相同则认为probe识别成功,因此Rank-1准确率指标可表示为:
Rank-1=probe识别成功数/probe总数 (10)
根据本申请实施例的第二方面,如图7所示,一种非受限视频监控的低清人脸识别装置,包括:
获取模块201,用于获取训练集,所述训练集包含教师网络训练集和学生网络训练集,其中所述教师网络训练集包含多个含有标签的高清人脸图像数据,所述学生网络训练集包含多个含有标签的人工下采样低清人脸图像数据及多个含有标签的真实场景下低清人脸图像数据,所述教师网络训练集中的多个含有标签的高清人脸图像数据经过下采样后形成学生网络训练集中的多个含有标签的人工下采样低清人脸图像数据;
第一训练模块202,用于将高清人脸图像数据对教师网络进行第一训练得到训练好的教师网络模型,所述第一训练包含利用第一特征提取网络提取所述高清人脸图像数据的第一特征;
第二训练模块203,用于将训练好的教师网络模型中的预权重赋予学生网络形成初始学生网络模型,将人工下采样低清人脸图像数据及真实场景下低清人脸图像数据联合输入到初始学生网络模型进行第二训练,得到训练好的低清人脸识别模型;
所述学生网络模型包含第二特征提取网络及特征分类网络,所述第二训练包括:利用初始学生网络模型的第二特征提取网络提取人工下采样低清人脸图像数据及真实场景下低清人脸图像数据对应的第二特征及第三特征,将第二特征和第一特征的均方差误差作为第一损失函数,并利用第一损失函数反向更新第二特征提取网络参数得到临时第二特征提取网络;将第二特征及第三特征在再生希尔伯特空间上的最大均值误差作为第二损失函数,并利用第二损失函数反向更新初始域鉴别器模型参数及临时第二特征提取网络参数得到更新后的域鉴别器模型及更新后的第二特征提取网络;将第二特征的交叉熵损失作为第三损失函数,并利用第三损失函数反向更新特征分类网络得到更新后的特征分类网络,从而得到第一学生网络模型及第一域鉴别器模型;再以第一学生网络模型作为初始学生网络模型、第一域鉴别器模型作为初始域鉴别器模型,返回根据初始学生网络模型中第二特征提取网络提取人工下采样低清人脸图像数据及真实场景下低清人脸图像数据对应的第二特征及第三特征,再根据第一特征、第二特征及第三特征分别获得更新后的第二特征提取网络、更新后的域鉴别器模型及更新后的特征分类网络,直至满足预设的迭代停止条件;
将满足预设的迭代停止条件的第一学生网络模型作为训练好的低清人脸识别模型;
验证及识别模块204,用于将测试集输入到训练好的低清人脸识别模型得到人脸验证和识别结果。
根据本申请实施例的第三方面,如图8所示,一种计算机设备,包括:
至少一个处理器301;
至少一个存储器302,用于存储至少一个程序;
该处理器301用于提供计算和控制能力,支撑整个服务器的运行。存储器302可包括非易失性存储介质及内存储器。非易失性存储介质存储有操作系统和计算机程序。该计算机程序可被处理器所执行,当所述至少一个程序被至少一个处理器执行时,使得至少一个处理器实现第一方面所述非受限视频监控的低清人脸识别方法,上述计算机设备包含是手机、平板电脑或者个人数字助理或穿戴式设备或者服务器等,本实施例对计算机不做具体限制。
根据本申请实施例的第四方面,一种计算机可读存储介质,其中存储有处理器可执行的程序,所述处理器可执行的程序由处理器执行时用于实现第一方面的非受限视频监控的低清人脸识别方法。
为了对本发明提供的一种非受限视频监控的低清人脸识别方法进行说明,本实施例中利用CASIA-WebFace作为教师网络训练集,CASIA-WebFace-S作为学生网络训练集的人工下采样低清人脸图像数据,TinyFace作为作为学生网络训练集的真实场景下低清人脸图像数据;CASIA-WebFace数据集含有9067人的434793张图片,每人至少包含14幅图像。CASIA-WebFace在输入教师网络之前,使用MTCNN人脸检测对齐网络对CASIA-WebFace的人脸区域进行检测对齐,根据面部五个特征点,即两个眼睛中心、鼻尖和两个嘴角的坐标,通过仿射变换将教师网络训练集的高清人脸图像分辨率归一化为112×112;CASIA-WebFace-S获取过程如下:经过上述检测好的人脸图像使用Bicubic(双立方插值)分别进行降采样形成分辨率为16×16、36×36、64×64、96×96的低清人脸图像,接着16×16、36×36、64×64、96×96的图片分辨率归一化为112×112,将上述数据增广后的数据集表示为CASIA-WebFace-S。TinyFace数据集是从网络数据集中提取低清人脸创建的原生低清数据集,由169400张低清人脸图像组成,用于甚低清人脸识别任务。本实施例中主要使用数据集的训练集部分,其包含2570人的7804幅图像。人脸图像高度为6-32像素,平均高度为20像素。由于TinyFace图像已经过人脸检测,因此使用Bicubic上采样为112×112分辨率用作学生网络的输入,即保证了学生网络和教师网络输入训练集的图片分辨率均为112×112。
在本实施例中,在教师网络和学生网络的特征提取网络那块,骨干网络均采用Res2Net模块作为残差块的ResNet50,考虑到低分辨率人脸鉴别特征较少,我们改变了常见ResNet50网络起始结构,将第一层7×7、步长为2的卷积替换为3×3、步长为1的卷积,使得提取的特征更全面,不会遗漏太多信息。输入图像x的高和宽均为3通道,112像素(记为(112,112,3)),x经过3×3卷积层和一个maxpooling层后,输出尺寸为原来的一半,通道数为64;接下来x经过Res2Net50的四个阶段,每个阶段的残差块Res2Net个数依次为3,4,6,3,分别得到4个特征图。一阶段后得到的特征图尺寸为(56,56,256),二阶段后得到的特征图尺寸为(28,28,512),三阶段后得到的特征图尺寸为(14,14,1024),四阶段后得到的特征图尺寸为(7,7,2048),最后经过全连接输出为512维特征向量,记作(1,1,512);因此域鉴别器模块输入为(7,7,2048)的源域样本特征(人工下采样低清人脸图像数据对应的第二特征)和目标域样本特征(真实场景下低清人脸图像数据的第三特征),具体过程如下:如图5所示,首先经过一个3×3卷积增加局部上下文信息,再经过PReLU降低参数以及过拟合风险,接着经过两层ResBlock;如图6所示,在ResBlock结构里,本实施例使用了IN(InstanceNormalization),因为在图片风格迁移等注重每个像素的任务中,每个图像实例的每个像素点信息都十分重要,而使用BN(Bach Normalization)对每批样本归一化就不太合适。使用IN不仅可以加快模型收敛,并且可以保证每个图像实例相互独立,之后经过倒数第二层全连接层后,输出均为(1,1,512)的特征向量,再经过批量归一化保证样本特征值在0~1之间。
本实施例在PyTorch深度学习框架对上述模型进行训练。使用随机梯度下降优化器,初始学习率设置为0.1,动量设置为0.9,权重衰减设置为1e-5,设置的迭代停止条件经过60epoch训练结束,将总损失函数Ltot=λ1Ldistill2Ldomain+Lcls的λ1和λ2均设置为0.1,此时总损失函数在0.1左右;
测试集采用SCFace和LFW数据集。SCFace数据集包含130名受试者在不受控制的室内环境中使用5台不同质量的视频监控摄像机拍摄的图像。对于每个受试者,每个监控摄像机在4.20m(d1)、2.60m(d2)和1.00m(d3)三个不同的距离(每个距离五张照片)共拍摄了15张照片,还有一张正面人脸照片由高清数字相机拍摄。本发明将正面人脸照片作为gallery图像,不同距离的监控摄像头拍摄的图像作为probe图像,此时不需要对probe图像进行下采样了,直接将gallery和probe进行检测与对齐,上述检测与对齐的设置与CASIA-WebFace数据处理相同;人脸识别任务可以分为两大类,开集(Open Set)和闭集(Close Set)识别。首先给定人脸集合probe和gallery,对于闭集识别,probe集合里所有人身份肯定包含在gallery集合中;而开集识别会增加一个impostor(欺骗)集合,该集合的人既不在probe中,也不在gallery中,本发明测试属于闭集识别。为了和其他算法做公平对比,本发明在SCFace数据集里的130人中选取50人对学生网络进行微调,剩下的80人用于测试。将由高清数字像机拍摄的人脸作为gallery,不同质量相机在不同距离拍摄的真实低清人脸作为probe,测试模型对于真实场景下低清人脸识别问题的鲁棒性,评价指标采用的是Rank-1准确率。
LFW数据集包含了5749名受试者的13233张图像。首先对LFW中的人脸使用MTCNN进行检测,并对齐到112×112分辨率形成非受限高清人脸图像数据,为了模拟视频监控环境下低清人脸的设置,将上述检测好的非受限高清人脸图像数据使用Bicubic(双立方插值)分别进行降采样形成分辨率为8×8,12×12,16×16,20×20的低清人脸图像,接着将8×8,12×12,16×16,20×20的图片分辨率归一化为112×112形成各分辨率低清人脸图像数据,将各分辨率低清人脸图像数据和非受限高清人脸图像数据两两配对形成正负测试样本,进行人脸验证,所述LFW测试集用于人脸验证测试,评价指标采用的是准确率ACC。
为了验证该低清人脸识别模型的性能,本发明与Jiankang Deng,Jia Guo等人发表的文章“ArcFace:Additive Angular Margin Loss for Deep Face Recognition”,以及Ze Lu,Xudong Jiang等人发表的文章“Deep Coupled ResNet for Low-Resolution FaceRecognition”进行了对比。具体实验结果如下表所示。其中,在SCFace数据集上的Rank-1精度如表1所示,在LFW数据集上的人脸验证准确率ACC如表2所示。
Distance d1 d2 d3
ArcFace(resnet50) 67.3 93.5 98.0
DCR 73.3 93.5 98.0
Ours 75.1 94.8 98.0
表1
Probe Size 8×8 12×12 16×16 20×20 112×112
ArcFace(resnet50) 88.9 93.8 95.9 96.8 98.8
DCR 93.6 95.3 96.6 97.3 98.7
Ours 94.2 95.4 96.9 97.5 99.1
表2
表2中的112×112组即表示对高清图片的验证精度,本发明相比于Jiankang Deng以及Ze Lu等人提出的人脸识别模型,无论是在非受限视频监控的低清数据集以及人工下采样的低清数据集上性能指标均有明显提升,说明本发明能够有效提升模型对于监控场景下低清人脸识别及验证精度。
以上实施例仅表达了本发明的几种实施方式,其描述较为具体和详细但并不能因此而理解为对本申请专利范围的限制。对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种非受限视频监控的低清人脸识别方法,其特征在于,包括以下步骤:
S1.准备训练集,所述训练集包含教师网络训练集和学生网络训练集,其中所述教师网络训练集包含多个含有标签的高清人脸图像数据,所述学生网络训练集包含多个含有标签的人工下采样低清人脸图像数据及多个含有标签的真实场景下低清人脸图像数据,所述教师网络训练集中的多个含有标签的高清人脸图像数据经过下采样后形成学生网络训练集中的多个含有标签的人工下采样低清人脸图像数据;
S2.利用高清人脸图像数据对教师网络进行第一训练得到训练好的教师网络模型,所述第一训练包含利用第一特征提取网络提取所述高清人脸图像数据的第一特征;
S3.将训练好的教师网络模型中的预权重赋予学生网络形成初始学生网络模型,将人工下采样低清人脸图像数据及真实场景下低清人脸图像数据联合输入到初始学生网络模型进行第二训练,得到训练好的低清人脸识别模型;
所述学生网络模型包含第二特征提取网络及特征分类网络,所述第二训练包括:利用初始学生网络模型的第二特征提取网络提取人工下采样低清人脸图像数据及真实场景下低清人脸图像数据对应的第二特征及第三特征,将第二特征和第一特征的均方差误差作为第一损失函数,并利用第一损失函数反向更新第二特征提取网络参数得到临时第二特征提取网络;将第二特征及第三特征在再生希尔伯特空间上的最大均值误差作为第二损失函数,并利用第二损失函数反向更新初始域鉴别器模型参数及临时第二特征提取网络参数得到更新后的域鉴别器模型及更新后的第二特征提取网络;将第二特征的交叉熵损失作为第三损失函数,并利用第三损失函数反向更新特征分类网络得到更新后的特征分类网络,从而得到第一学生网络模型及第一域鉴别器模型;再以第一学生网络模型作为初始学生网络模型、第一域鉴别器模型作为初始域鉴别器模型,返回根据初始学生网络模型中第二特征提取网络提取人工下采样低清人脸图像数据及真实场景下低清人脸图像数据对应的第二特征及第三特征,再根据第一特征、第二特征及第三特征分别获得更新后的第二特征提取网络、更新后的域鉴别器模型及更新后的特征分类网络,直至满足预设的迭代停止条件;
将满足预设的迭代停止条件的第一学生网络模型作为训练好的低清人脸识别模型;
S4.将测试集输入到训练好的低清人脸识别模型得到人脸验证和识别结果。
2.根据权利要求1所述的非受限视频监控的低清人脸识别方法,其特征在于,所述学生网络中的第二特征提取网络及教师网络中的第一特征提取网络按各层分别提取人工下采样低清人脸图像数据的阶段特征
Figure FDA0003683748890000021
及高清人脸图像数据的阶段特征
Figure FDA0003683748890000022
K为第一特征提取网络及第二特征提取网络的层数;
所述第一训练包含利用第一特征提取网络按照各层提取所述高清人脸图像数据的阶段特征
Figure FDA0003683748890000023
所述第二训练包括:利用初始学生网络模型的第二特征提取网络按照各层分别提取人工下采样低清人脸图像数据的阶段特征
Figure FDA0003683748890000024
以及根据初始学生网络模型中的第二特征提取网络提取真实场景下低清人脸图像数据的第三特征,将每一层对应的阶段特征
Figure FDA0003683748890000025
和阶段特征
Figure FDA0003683748890000026
的均方差误差相加作为第一损失函数,并利用第一损失函数反向更新第二特征提取网络参数得到临时第二特征提取网络;将初始学生网络模型的第二特征提取网络提取的最后一层阶段特征
Figure FDA0003683748890000027
及第三特征在再生希尔伯特空间上的最大均值误差作为第二损失函数,并利用第二损失函数反向更新初始域鉴别器模型参数及临时第二特征提取网络参数得到更新后的域鉴别器模型及更新后的第二特征提取网络;将初始学生网络模型的第二特征提取网络提取的最后一层阶段特征
Figure FDA0003683748890000028
的交叉熵损失作为第三损失函数,并利用第三损失函数反向更新特征分类网络得到更新后的特征分类网络,从而得到第一学生网络模型及第一域鉴别器模型;再以第一学生网络模型作为初始学生网络模型、第一域鉴别器模型作为初始域鉴别器模型,返回根据初始学生网络模型中的第二特征提取网络按照各层分别提取人工下采样低清人脸图像数据的阶段特征
Figure FDA0003683748890000029
以及根据初始学生网络模型中的第二特征提取网络提取真实场景下低清人脸图像数据的第三特征,再根据阶段特征
Figure FDA00036837488900000210
阶段特征
Figure FDA00036837488900000211
及第三特征分别获得更新后的第二特征提取网络、更新后的域鉴别器模型及更新后的特征分类网络,直至满足预设的迭代停止条件;
将满足预设的迭代停止条件的第一学生网络模型作为训练好的低清人脸识别模型。
3.根据权利要求2所述的非受限视频监控的低清人脸识别方法,其特征在于,所述学生网络的第二特征提取网络和教师网络的第一特征提取网络中的骨干网络均采用Res2Net模块作为残差块的ResNet50,所述第一损失函数具体为:
Figure FDA00036837488900000212
4.根据权利要求1所述的非受限视频监控的低清人脸识别方法,其特征在于,所述第二损失函数具体为:
Figure FDA0003683748890000031
公式(2)中,
Figure FDA0003683748890000032
Figure FDA0003683748890000033
分别表示人工下采样低清人脸图像数据及真实场景下低清人脸图像数据经过第二特征提取网络提取到的第二特征及第三特征,N1和N2分别表示输入学生网络的采样低清人脸图像数据及真实场景下低清人脸图像数量;H表示再生希尔伯特空间,φ是一个映射函数,用于将数据样本映射到希尔伯特空间;在希尔伯特空间中,由于范数运算和内积运算相同,故
Figure FDA0003683748890000034
所以等式(2)通过核技巧改写为:
Figure FDA0003683748890000035
公式(4)中k是由多个凸核{ku}组合而成的特征核,与特征图相关联的内核定义为:
Figure FDA0003683748890000036
公式(5)中内核ku是高斯内核,定义为:
Figure FDA0003683748890000037
5.根据权利要求1所述的非受限视频监控的低清人脸识别方法,其特征在于,所述第三损失函数具体为:
Figure FDA0003683748890000038
公式(7)中xi表示输入特征分类网络中的经过第二特征提取网络提取的第二特征,yi∈{1,2,...,M}为xi的真实标签,
Figure FDA0003683748890000041
是Softmax层对应第i个类的权重。
6.根据权利要求1所述的非受限视频监控的低清人脸识别方法,其特征在于,步骤S4中将测试集输入到训练好的低清人脸识别模型得到人脸验证和识别结果包含以下步骤:
人脸验证时,对带有标签的非受限高清人脸图像数据进行下采样形成各分辨率低清人脸图像数据,将非受限高清人脸图像数据及各分辨率低清人脸图像数据作为测试集联合输入至训练好的低清人脸识别模型得到各分辨率低清人脸图像数据的分类概率,采用准确率ACC指标评价训练好的低清人脸识别模型的验证性能,具体过程如下:将各分辨率低清人脸图像数据和非受限高清人脸图像数据两两配对形成正负测试样本,其中正测试样本为各分辨率低清人脸图像数据和标签相同的非受限高清人脸图像数据配对形成的样本,负样本为各分辨率低清人脸图像数据和标签不相同的非受限高清人脸图像数据配对形成的样本,因此准确率ACC指标可表示为:
Figure FDA0003683748890000042
公式(8)中,TP指特征分类网络根据分类概率将正测试样本判定为正测试样本,TN指特征分类网络根据分类概率将负测试样本判定为负测试样本,FP指特征分类网络根据分类概率将负测试样本判定为正测试样本,FN指征分类网络根据分类概率将正测试样本判定为负测试样本;
人脸识别时,获取带有标签的非受限视频监控的高清人脸图像数据gallery及对应不同距离的低清人脸图像数据probe,将低清人脸图像数据probe作为测试集输入至训练好的低清人脸识别模型,得到低清人脸图像数据probe相对于所有非受限视频监控的高清人脸图像数据gallery的分类概率,采用Rank-1准确率指标评价训练好的低清人脸识别模型的识别性能,具体如下:选择分类概率最大的gallery标签作为低清人脸图像数据probe的分类标签并对比分类标签和真值标签,如果分类标签和真值标签相同则认为probe识别成功,因此Rank-1准确率指标可表示为:
Rank-1=probe识别成功数/probe总数 (9)。
7.根据权利要求2所述的非受限视频监控的低清人脸识别方法,其特征在于,步骤S4中预设的迭代停止条件包含训练达到预设的训练次数,或者总损失函数达到预设的阈值,其中所述总损失函数如下所示:
Ltot=λ1Ldistill2Ldomain+Lcls (10)
公式(10)中,λ1、λ2为比例因子。
8.一种非受限视频监控的低清人脸识别装置,其特征在于,包括:
获取模块,用于获取训练集,所述训练集包含教师网络训练集和学生网络训练集,其中所述教师网络训练集包含多个含有标签的高清人脸图像数据,所述学生网络训练集包含多个含有标签的人工下采样低清人脸图像数据及多个含有标签的真实场景下低清人脸图像数据,所述教师网络训练集中的多个含有标签的高清人脸图像数据经过下采样后形成学生网络训练集中的多个含有标签的人工下采样低清人脸图像数据;
第一训练模块,用于将高清人脸图像数据对教师网络进行第一训练得到训练好的教师网络模型,所述第一训练包含利用第一特征提取网络提取所述高清人脸图像数据的第一特征;
第二训练模块,用于将训练好的教师网络模型中的预权重赋予学生网络形成初始学生网络模型,将人工下采样低清人脸图像数据及真实场景下低清人脸图像数据联合输入到初始学生网络模型进行第二训练,得到训练好的低清人脸识别模型;
所述学生网络模型包含第二特征提取网络及特征分类网络,所述第二训练包括:利用初始学生网络模型的第二特征提取网络提取人工下采样低清人脸图像数据及真实场景下低清人脸图像数据对应的第二特征及第三特征,将第二特征和第一特征的均方差误差作为第一损失函数,并利用第一损失函数反向更新第二特征提取网络参数得到临时第二特征提取网络;将第二特征及第三特征在再生希尔伯特空间上的最大均值误差作为第二损失函数,并利用第二损失函数反向更新初始域鉴别器模型参数及临时第二特征提取网络参数得到更新后的域鉴别器模型及更新后的第二特征提取网络;将第二特征的交叉熵损失作为第三损失函数,并利用第三损失函数反向更新特征分类网络得到更新后的特征分类网络,从而得到第一学生网络模型及第一域鉴别器模型;再以第一学生网络模型作为初始学生网络模型、第一域鉴别器模型作为初始域鉴别器模型,返回根据初始学生网络模型中第二特征提取网络提取人工下采样低清人脸图像数据及真实场景下低清人脸图像数据对应的第二特征及第三特征,再根据第一特征、第二特征及第三特征分别获得更新后的第二特征提取网络、更新后的域鉴别器模型及更新后的特征分类网络,直至满足预设的迭代停止条件;
将满足预设的迭代停止条件的第一学生网络模型作为训练好的低清人脸识别模型;
验证及识别模块,用于将测试集输入到训练好的低清人脸识别模型得到人脸验证和识别结果。
9.一种计算机设备,其特征在于,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被至少一个处理器执行时,使得至少一个处理器实现如权利要求1-7中任一项所述的非受限视频监控的低清人脸识别方法。
10.一种计算机可读存储介质,其中存储有处理器可执行的程序,其特征在于,所述处理器可执行的程序由处理器执行时用于实现如权利要求1-7中任一项所述的非受限视频监控的低清人脸识别方法。
CN202110377777.XA 2021-04-08 2021-04-08 非受限视频监控的低清人脸识别方法、装置、设备及介质 Active CN113205002B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110377777.XA CN113205002B (zh) 2021-04-08 2021-04-08 非受限视频监控的低清人脸识别方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110377777.XA CN113205002B (zh) 2021-04-08 2021-04-08 非受限视频监控的低清人脸识别方法、装置、设备及介质

Publications (2)

Publication Number Publication Date
CN113205002A CN113205002A (zh) 2021-08-03
CN113205002B true CN113205002B (zh) 2022-07-29

Family

ID=77026467

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110377777.XA Active CN113205002B (zh) 2021-04-08 2021-04-08 非受限视频监控的低清人脸识别方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN113205002B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113807214B (zh) * 2021-08-31 2024-01-05 中国科学院上海微系统与信息技术研究所 基于deit附属网络知识蒸馏的小目标人脸识别方法
CN114092918A (zh) * 2022-01-11 2022-02-25 深圳佑驾创新科技有限公司 模型训练方法、装置、设备及存储介质
CN116958148B (zh) * 2023-09-21 2023-12-12 曲阜师范大学 输电线路关键部件缺陷的检测方法、装置、设备、介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110674688A (zh) * 2019-08-19 2020-01-10 深圳力维智联技术有限公司 用于视频监控场景的人脸识别模型获取方法、系统和介质
CN111832517A (zh) * 2020-07-22 2020-10-27 福建帝视信息科技有限公司 基于门控卷积的低清人脸关键点检测方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110674688A (zh) * 2019-08-19 2020-01-10 深圳力维智联技术有限公司 用于视频监控场景的人脸识别模型获取方法、系统和介质
CN111832517A (zh) * 2020-07-22 2020-10-27 福建帝视信息科技有限公司 基于门控卷积的低清人脸关键点检测方法

Also Published As

Publication number Publication date
CN113205002A (zh) 2021-08-03

Similar Documents

Publication Publication Date Title
CN111444881B (zh) 伪造人脸视频检测方法和装置
WO2021077984A1 (zh) 对象识别方法、装置、电子设备及可读存储介质
CN112215180B (zh) 一种活体检测方法及装置
Chen et al. Convolution neural network for automatic facial expression recognition
Zhang et al. Demeshnet: Blind face inpainting for deep meshface verification
CN113205002B (zh) 非受限视频监控的低清人脸识别方法、装置、设备及介质
CN105069400B (zh) 基于栈式稀疏自编码的人脸图像性别识别系统
KR101254177B1 (ko) 방사형 기저 함수 신경회로망 알고리즘을 이용한 실시간 얼굴 인식 시스템
CN109359541A (zh) 一种基于深度迁移学习的素描人脸识别方法
CN112784763A (zh) 基于局部与整体特征自适应融合的表情识别方法及系统
CN111368672A (zh) 一种用于遗传病面部识别模型的构建方法及装置
Puthea et al. A review paper on attendance marking system based on face recognition
US20190236738A1 (en) System and method for detection of identity fraud
Hebbale et al. Real time COVID-19 facemask detection using deep learning
CN113011253B (zh) 基于ResNeXt网络的人脸表情识别方法、装置、设备及存储介质
Patil et al. Comparative analysis of facial recognition models using video for real time attendance monitoring system
CN115564993A (zh) 一种基于多尺度特征融合和注意力机制的唇纹图像分类算法
Diyasa et al. Multi-face Recognition for the Detection of Prisoners in Jail using a Modified Cascade Classifier and CNN
An Pedestrian Re‐Recognition Algorithm Based on Optimization Deep Learning‐Sequence Memory Model
CN111144220B (zh) 适于大数据的人员检测方法、装置、设备和介质
CN113221770A (zh) 基于多特征混合学习的跨域行人重识别方法及系统
CN111666976A (zh) 基于属性信息的特征融合方法、装置和存储介质
CN114677611B (zh) 数据识别方法、存储介质及设备
Salah et al. Recognize Facial Emotion Using Landmark Technique in Deep Learning
CN110490149A (zh) 一种基于svm分类的人脸识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant