CN108765279A - 一种面向监控场景的行人人脸超分辨率重建方法 - Google Patents
一种面向监控场景的行人人脸超分辨率重建方法 Download PDFInfo
- Publication number
- CN108765279A CN108765279A CN201810224421.0A CN201810224421A CN108765279A CN 108765279 A CN108765279 A CN 108765279A CN 201810224421 A CN201810224421 A CN 201810224421A CN 108765279 A CN108765279 A CN 108765279A
- Authority
- CN
- China
- Prior art keywords
- face
- resolution
- module
- alignment
- indicate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 238000012544 monitoring process Methods 0.000 title claims abstract description 24
- 230000001815 facial effect Effects 0.000 claims abstract description 36
- 230000006870 function Effects 0.000 claims description 81
- 238000005070 sampling Methods 0.000 claims description 57
- 238000012549 training Methods 0.000 claims description 28
- 238000003475 lamination Methods 0.000 claims description 22
- 238000013507 mapping Methods 0.000 claims description 21
- 230000008569 process Effects 0.000 claims description 17
- 230000009466 transformation Effects 0.000 claims description 16
- 230000013016 learning Effects 0.000 claims description 13
- 238000004422 calculation algorithm Methods 0.000 claims description 10
- 230000029087 digestion Effects 0.000 claims description 10
- 230000007704 transition Effects 0.000 claims description 10
- 238000013519 translation Methods 0.000 claims description 9
- 230000014616 translation Effects 0.000 claims description 9
- 238000011176 pooling Methods 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 6
- 238000000280 densification Methods 0.000 claims description 6
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 claims description 4
- 230000008859 change Effects 0.000 claims description 4
- 238000012360 testing method Methods 0.000 claims description 3
- 238000011478 gradient descent method Methods 0.000 claims 2
- 241000208340 Araliaceae Species 0.000 claims 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 claims 1
- 235000003140 Panax quinquefolius Nutrition 0.000 claims 1
- 235000008434 ginseng Nutrition 0.000 claims 1
- 238000005516 engineering process Methods 0.000 abstract description 5
- 238000005457 optimization Methods 0.000 abstract description 3
- 210000002569 neuron Anatomy 0.000 description 6
- 230000004069 differentiation Effects 0.000 description 5
- 101000585157 Homo sapiens CST complex subunit STN1 Proteins 0.000 description 4
- 101000820457 Homo sapiens Stonin-2 Proteins 0.000 description 4
- 102100021683 Stonin-1 Human genes 0.000 description 4
- 102100021684 Stonin-2 Human genes 0.000 description 4
- 238000001514 detection method Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000003780 insertion Methods 0.000 description 3
- 230000037431 insertion Effects 0.000 description 3
- 230000007423 decrease Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- -1 warp lamination 1 Proteins 0.000 description 2
- 208000004547 Hallucinations Diseases 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000001235 sensitizing effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4053—Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Oral & Maxillofacial Surgery (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明提出一种面向监控场景的行人人脸超分辨率重建方法,将行人人脸检测和人脸超分辨率重建统一到一个网络中,实现以端到端的方式输出人脸超分辨率图像,并给出针对行人人脸不可避免的不对齐、含有噪声等问题的解决方法。本发明分为行人人脸检测部分和人脸超分辨重建部分。给定一张行人的图像,首先利用人脸检测网络生成候选人脸的包围盒,然后将得到的包围盒输入人脸超分辨网络中,生成高分辨率的人脸图像。在联合优化的过程中,人脸检测网络和人脸超分辨网络相互适应。本发明能够为视频监控的行人再识别技术提供有效的信息,帮助完成寻找特定行人的任务,突破现有再识别中依靠行人外表等属性来区分不同的行人,有效利用关键的人脸信息。
Description
技术领域
本发明涉及视频监控分析技术领域和人脸超分辨重建领域,特别是涉及一种行人人脸检测和人脸超分辨重建领域,具体涉及一种面向监控场景的行人人脸超分辨率重建方法
背景技术
在大型商场、游乐园等人口密集的公共场所,经常需要从视频监控得到的图像中来查找一些特殊身份的人,而由于行人与摄像头之间的距离较远以及摄像头分辨率有限等原因往往无法识别图像中的行人。人脸作为图像中经常被关注的敏感区域,对特定身份的人的识别起到至关重要的作用,但是从视频监控中获取的低分辨率人脸图像包含信息量比较少,同时伴随着姿态、表情、光照等因素使得提取有效的人脸特征较为困难,增加了人脸识别的难度。因此,如何通过低分辨率的行人图像重建高分辨的行人人脸图像,从而进一步进行识别和应用,一直以来都是监控分析领域和人脸超分辨重建领域中所致力解决的关键问题之一。
现有的研究通常把上述问题分为两个独立的子问题:人脸检测和人脸超分辨重建。在视频监控中的人脸检测技术,与传统的对静态图像的人脸检测技术不同,不是人脸迎合摄像头,而是要由摄像头来捕捉人脸,因此,具有更大的挑战。人脸超分辨率重建是一种从低分辨率人脸图像重建出其相应的高分辨率人脸图像的技术。现有的人脸超分辨率方法常假设输入的人脸图像足够大并且是对齐的、无噪声的。而从视频监控中获得的人脸图像常常是含有噪声的、非对齐的、低分辨率图像,导致现有方法的性能会产生较大幅度的下降。
2016年,Dong等率先将卷积神经网络引入到图像超分辨率复原的问题中,设计了基于深度卷积神经网络的图像超分辨率复原方法。该方法的主要思想是:以深度学习与传统稀疏编码之间的关系作为依据,将网络分为图像块提取、非线性映射和图像重建三个阶段,再将这三个阶段统一到一个深度卷积神经网络框架中,实现由低分辨率图像到高分辨率图像之间的端到端学习。该方法的重建结果比SCSR(Sparse coding based superresolution)方法的结果有较大提高。但是该方法的输入为对齐的、无噪声的低分辨率人脸图像,所以,在实际应用场景中的性能会有大幅度下降。
为了弥补从低分辨率的行人图像到高分辨率的人脸图像的差距,同时也为了解决实际中的人脸图像的不对齐、含有噪声的现象所导致重建重影问题,本发明提出一种面向视频监控的人脸检测与人脸超分辨重建方法,该网络使用一个端到端网络实现了人脸检测和将非对齐的、含有噪声的人脸的超分辨重建。
参考文献:
[1]Yu X,Porikli F.Hallucinating very low-resolution unaligned andnoisy face images by transformative discriminative autoencoders[C]//Proceedings ofthe IEEE Conference on Computer Vision and PatternRecognition.2017:3760-3768.
[2]Dong C,Loy C C,He K M,Tang X O.Image superresolution using deepconvolutional networks.IEEE Transactions on Pattern Analysis and MachineIntelligence,2016,38(2):295-307
发明内容
针对真实场景视频监控中的人脸识别问题,本发明提出一种面向视频监控场景的行人人脸检测和人脸超分辨重建方法,将行人人脸检测和人脸超分辨率重建统一到一个网络中,实现以端到端的方式输出人脸超分辨率图像,并给出针对行人人脸不可避免的不对齐、含有噪声等问题的的解决方法。本发明分为两个主要部分:行人人脸检测部分和人脸超分辨重建部分。给定一张行人的图像,首先利用人脸检测网络生成候选人脸的包围盒(bounding boxes),然后将得到的包围盒输入人脸超分辨网络中,生成高分辨率的人脸图像。在联合优化的过程中,人脸检测网络和人脸超分辨网络相互适应。本发明能够为视频监控的行人再识别技术提供有效的信息,帮助完成寻找特定行人的任务,突破现有再识别中依靠行人外表等属性来区分不同的行人,有效利用关键的人脸信息。
本发明是采用以下技术手段实现的:
步骤1:数据预处理;
视频监控中的静态图像作为输入图像,对输入图像进行预处理,即将输入图像依次进行随机裁剪、尺度变换和水平翻转,得到预处理过的图像样本。
步骤2:使用快速消化卷积层得到特征图。
步骤2.1:构建包含2个卷积层、2个池化层和含有2个C.ReLU激活函数的快速消化卷积层。
步骤2.2:将由步骤1获得的图像样本通过快速消化卷积层,通过卷积层提取特征,再通过C.ReLU,再通过池化层映射特征,获得特征图。
步骤3:使用多尺度卷积层获得不同尺度的人脸特征图。
步骤3.1:构建Inception模块,该模块包含4个分的卷积层和池化层,第一个分支为核大小为1×1的卷积层,第二个分为依次为核大小为3×3的池化层和1×1的卷积层,第三个分支依次为核大小为1×1的卷积层和3×3的卷积层,第四个分支依次为核大小为1×1的卷积层、3×3的卷积层和3×3的卷积层。
步骤3.2:构建包含3个Inception模块和4个卷积层的多尺度卷积层。
步骤3.3:将由步骤2获得的特征图通过多尺度卷积层,经过Inception模块和卷积层提取特征,以获取第三个Inception(Inception3)输出的特征图作为第一个特征图,分别以获取第二个(Conv3_2)和第四个卷积层(Conv4_2)的特征作为第二个和第三个特征图。
步骤4:利用anchor密集化策略扩充anchor
步骤4.1:设置anchor初始尺寸:Inception3层的anchor尺寸为32、64和128像素,卷积层Conv3_2的anchor尺寸为256和512像素,卷积层Conv4_2的anchor尺寸为256和512像素;
步骤4.2:计算anchor的密度:
其中,Ascale为anchor的尺寸,Ainterval为anchor平移的步长,Adensity为anchor的密度。这里,在Inception3中的Ainterval默认为32、32和32,在Conv3_2中的Ainterval默认为64,在Conv4_2中的Ainterval默认为128;
步骤4.3:对密度值不是最高的anchor利用anchor密集化策略进行扩充,得到密度大小相同的anchor:
步骤4.3.1:设置Anumber参数,表示anchor扩充的倍数;
步骤4.3.2:在每个感受野中心的周围以anchor中心偏移的方式使anchor变为倍。
步骤5:获得行人人脸的特征图
步骤5.1:将由步骤4获得的每个特征输入分类层和边框回归层:
步骤5.1.1:使用Softmax损失函数作为分类器来分类非人脸和人脸,即
其中,P(i)为所属类别概率,为模型参数,x为输入,K为分类类别数。此处,K=2,上式可化简为:
步骤5.1.2:边框回归层利用下式调整每个anchor区域:
其中,x、y、w和h分别为预测框的中心点坐标、宽和高,xa、ya、wa和ha分别表示候选区域框的中心点坐标、宽和高,x*、y*、w*和h*分别表示真实框的中心点坐标、宽和高。tx、ty、tw和th分别为anchor的偏移量,即分别为anchor中心点坐标的平移量和anchor宽和高的平移量。和分别为候选区域与真实框之间的中心坐标的平移量、宽和高的平移量。
步骤5.2:获得分类标签为人脸的特征:对分类为非人脸的特征图进行去除,仅保留分类为人脸的特征图;
步骤6:将特征通过RoI Pooling层获得大小一致的特征图:
为了将图像中的anchor定位到特征图中对应部分和获得大小一致的特征图,将由步骤5获得人脸的特征图,通过RoI Pooling层,获得大小一致的特征图,即低分辨率人脸特征图。
步骤7:利用变换区分解码模块获得中间的高分辨率人脸
全文中低分辨率与高分辨为相对概念,其中低分辨率是由于摄像头设备造成的,即摄像头设备采集监控图像中的人脸则处于低分辨率的水平;高分辨率是通过重建方法提高分辨率来获得高分辨率人脸。
步骤7.1:变换区分解码模块包含两个部分:一个对齐上采样模块和一个区分模块。
其中,对齐上采样模块依次包含STN模块、反卷积层、STN模块、反卷积层和卷积层,用于生成高分辨率的人脸图像;区分模块依次包含多个卷积层、池化层和全连接层,用于判断输入的高分辨率人脸图像是真实的人脸还是通过高分辨率重建方法重建的人脸。
步骤7.1.1:使用STN对齐图像得到对齐的特征图:
构建STN,STN包含一个网格生成模块和一个双线性采样器。其中,网格生成网络用于回归出一组六维的变换参数θ,并使用该参数生成网格,其中仿射变换公式如下:
其中,为输出特征图上的坐标,为输入特征图上的坐标,θ11、θ12、θ21和θ22是缩放和旋转变换的参数,θ13和θ23是平移变换的参数。
双线性采样器的公式如下:
其中,为输出特征图的通道c上位置(m,n)的像素值,为输入特征图的通道c上位置(xs,ys)的像素值。若(xt,yt)与(m,n)很接近,即若|xt-m|<1且|yt-n|<1,则在(xs,ys)位置插入
步骤7.1.2:使用反卷积得到高分辨率人脸:
该层在这里相当于进行上采样的操作。通过调整步长来实现对采样因子的调整,两次反卷积分别采用3×3和5×5大小的核。该过程由下面公式表示:
F=σ(Wd·FSTN+B)
其中F代表反卷积层的输出,σ代表激活函数,Wd代表反卷积层的权重参数,·表示反卷积操作,FSTN为STN输出的特征,B为偏置。
步骤7.1.3:使用区分模块进行分类:
该区分模块的输入为由对齐上采样模块重建的高分辨率人脸图像,该图像通过多个卷积层和最大池化层,然后通过多个全连接层进行二分类操作。
步骤7.2:将由步骤6获得的低分辨率人脸特征图通过由步骤7.1构建的对齐上采样模块获得粗略对齐的高分辨率人脸特征
步骤8:利用变换编码模块获得对齐的无噪声的低分辨率人脸特征
步骤8.1:依次使用两组卷积层和最大池化层、STN模块、卷积层、最大池化层和STN构建变换编码模块;
步骤8.2:将由步骤7所生成的中间的高分辨人脸特征图通过区分模块生成无噪声、对齐的低分辨率人脸图像。
步骤9:利用变换区分解码模块获得最终的高分辨率人脸
步骤9.1:变换区分解码模块包含两个部分:一个对齐上采样模块和一个区分模块。其中,对齐上采样模块依次包含STN模块、反卷积层、STN模块、反卷积层和卷积层,用于生成高分辨率的人脸图像;区分模块依次包含多个卷积层、池化层和全连接层,用于判断输入的高分辨率人脸图像是真实的人脸还是通过高分辨率重建方法重建的人脸。
步骤9.2:将由步骤8所生成的低分辨人脸特征图通过对齐上采样模块生成最终高分辨率的人脸图像。
步骤10:网络的训练过程
首先分别训练人脸检测部分和人脸超分辨率部分,然后再训练整个网络,微调两个部分的权值,使两者更加适应彼此。
步骤10.1:训练参数设置:
所有参数使用“xavier”方法进行随机初始化。采用随机梯度下降算法训练模型,其中动量设置为0.9。权重衰减率设置为0.0005,batch-size设置为32,学习率初始设置为10-3。
步骤10.2:人脸检测部分的训练
人脸检测部分训练的损失函数为:
L(p,u,tu,v)=Lcls(p,u)+λ[u=1]Lloc(tu,v)
其中,整体损失函数L是由分类层损失函数Lcls和检测为人脸即u=1边框定位损失函数Lloc在权重参数λ的平衡下相加得到。Lcls为分类层损失函数,p=(p0,…,pu,…pk)为softmax层输出k+1类别的概率,此处k=1,即输出非人脸和人脸两个类别的概率,Lcls=-log pu表示真实的标签为u的误差,此处u=0表示非人脸或u=1表示人脸;Lcls为边框定位的损失函数,仅在检测为人脸时起作用,其中,令
j=1,2,3,4,和vj分别表示v=(v1,v2,v3,v4)=(vx,vy,vw,vh)表示预测人脸框的横坐标、纵坐标、宽度和高度,表示真实人脸的横坐标、纵坐标、宽度和高度;λ为用于平衡Lcls和Lloc的权重的参数,取值为10。
步骤10.3:人脸超分辨率部分的训练
步骤10.3.1:变换区分解码模块的训练
该模块中对齐上采样模块的损失函数U(s)使用像素间的L2范数,其损失函数写为:
表示最小化损失函数U(s)也就是最小化重建的高分辨率人脸与真实的高分辨人脸hi之误差的L2范数的数学期望,即使得重建的高分辨率人脸与真实的高分辨人脸hi更加接近。其中,s表示对齐上采样模块的参数,表示L2范数,表示输入的含噪声不对齐的低分辨率的人脸特征图,hi表示高分辨率的ground-truth人脸图像,p(ln,h)表示低分辨率和高分辨率人脸的联合概率分布,表示对齐上采样模块输出的高分辨率的人脸图像。
该模块中区分模块的损失函数L(t)为最大化分区模块的交叉熵如下:
表示由变换区分解码模块所生成的高分辨率人脸与真实的人脸hi接近使得区分模块难以分辨,即由变换区分解码模块所生成的高分辨率人脸与真实的人脸hi通过区分模块造成的交叉熵误差损失最大。其中,t表示分区模块的参数,D(hi)表示真实的人脸hi通过分区模块的输出,表示高分辨重建的人脸通过区分模块的输出,p(h)和分别表示真实的人脸概率分布和高分辨率重建的人脸的概率分布。
更新对齐上采样模块的参数:使用最大化区分模块的损失函数L(t)进行反向传播,其中区分模块的参数t在第i+1次迭代时更新过程如下:
其中,r表示学习率,设置为10-4,γ表示衰减率,设置为0.0005,i表示第i次迭代,Δ表示损失的残差变化,用于参数t的更新。ε被设置为10-8来避免除数为0。对于对齐上采样模块,联合使用对齐上采样模块的损失函数U和区分模块的损失函数L并通过随机梯度下降算法更新参数s:
其中,μ表示对齐上采样模块的损失函数U和区分模块的损失函数L的偏导数之间的权重因子,设置权重因子的初始值为0.01,并用下面公式更新权重因子的值:
μk=max{μ·0.99k,μ/2}
其中,k表示epoch的次数。
步骤10.3.2:变换编码器模块的训练
该模块的目标函数为:
表示最小化损失函数E(e)也就是最小化重建的高分辨率人脸通过Ψ产生的低分辨率人脸与真实的低分辨人脸li之间误差的L2范数的数学期望,即使得通过变换编码器得到的低分辨率人脸(即)与真实的低分辨人脸li更加接近。其中,e表示变换编码模块的参数,li表示真实的低分辨率人脸图像,表示低分辨率和高分辨率重建人脸的联合概率分布表示从中间上采样的高分辨率的人脸图像到低分辨率人脸的映射。
步骤10.3.3:变换区分解码模块的训练
该模块中对齐上采样模块的损失函数U(s)使用像素间的L2范数,其损失函数写为:
表示最小化损失函数U(s)也就是最小化重建的高分辨率人脸与真实的高分辨人脸hi之误差的L2范数的数学期望,即使得重建的高分辨率人脸与真实的高分辨人脸hi更加接近。其中,s表示对齐上采样模块的参数,表示L2范数,表示输入的含噪声不对齐的低分辨率的人脸特征图,hi表示高分辨率的ground-truth人脸图像,p(ln,h)表示低分辨率和高分辨率人脸的联合概率分布,表示对齐上采样模块输出的高分辨率的人脸图像。
该模块中区分模块的损失函数L(t)为最大化分区模块的交叉熵如下:
表示由变换区分解码模块所生成的高分辨率人脸与真实的人脸hi接近使得区分模块难以分辨,即由变换区分解码模块所生成的高分辨率人脸与真实的人脸hi通过区分模块造成的交叉熵误差损失最大。其中,t表示分区模块的参数,D(hi)表示真实的人脸hi通过分区模块的输出,表示高分辨重建的人脸通过区分模块的输出,p(h)和分别表示真实的人脸概率分布和高分辨率重建的人脸的概率分布。
更新对齐上采样模块的参数:使用最大化区分模块的损失函数L(t)进行反向传播,其中区分模块的参数t在第i+1次迭代时更新过程如下:
其中,r表示学习率,设置为10-4,γ表示衰减率,设置为0.0005,i表示第i次迭代,Δ表示损失的残差变化,用于参数t的更新。ε被设置为10-8来避免除数为0。对于对齐上采样模块,联合使用对齐上采样模块的损失函数U和区分模块的损失函数L并通过随机梯度下降算法更新参数s:
其中,μ表示对齐上采样模块的损失函数U和区分模块的损失函数L的偏导数之间的权重因子,设置权重因子的初始值为0.01,并用下面公式更新权重因子的值:
μk=max{μ·0.99k,μ/2}
其中,k表示epoch的次数。
步骤10.3:整个网络的训练
采用随机梯度下降算法训练整个网络的模型,其中动量设置为0.9。权重衰减率设置为0.0005,batch-size设置为32,学习率初始设置为10-4。
步骤11:网络的测试
输入一张行人图像,通过行人人脸检测部分得到人脸的特征图,然后通过人脸高分辨率部分获得高分辨率重建人脸图像。
本发明与现有技术相比,具有以下的优势和有益效果:
本发明提出一种一种面向监控场景的行人人脸超分辨率重建方法,本发明分为两个主要部分:行人人脸检测部分和人脸超分辨重建部分。给定一张行人的图像,首先利用人脸检测网络生成候选人脸的包围盒(bounding boxes),然后将这些包围盒输入人脸超分辨网络中,生成高分辨率的人脸图像。在联合优化的过程中,人脸检测网络和人脸超分辨网络相互适应。由于实际场景中的人脸图像常常伴随着不对齐和噪声,针对该问题,本方法中的人脸高分辨率重建部分利用STN自主学习与对齐的人脸之间的映射,使网络可以自动地学习并校正;由于将行人人脸检测和人脸超分辨率重建到融合到一个网络中,所以构成了一个从行人图像到高分辨率人脸图像重建的端到端网络,为实际应用中特定的行人搜索提供了有效的信息。
附图说明
图1是行人人脸超分辨率网络的结构图;
图2是行人人脸超分辨率网络中行人人脸检测的结构图;
图3是行人人脸超分辨率网络中人脸超分辨率中的变换区分解码器的结构图
图4是行人人脸超分辨率网络中人脸超分辨率中的变换编码网络的结构图
具体实施方式
计算机环境:操作系统为Linux 14.04版本,显卡为TitanX,软件平台:Spyder、caffe。
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。具体包括以下步骤:
1.该网络的输入图像是视频监控中的静态图像,为了获得更多的数据,使用数据扩充技术。随机剪裁,从一张图像中随机的剪裁5方形的patch:其中一个是最大的方形patch,其他的patch的大小是最短边的[0.3,1]。尺度变换,在随机剪裁之后,对选取的方形patch的大小统一成1024×1024。之后对尺度变换之后的图像以0.5的概率进行水平的翻转,得到预处理过的图像样本。
2.如图2所示为整个网络中的行人人脸检测部分,即说明书中步骤2和步骤3所指的快速消化的卷积层和多尺度卷积层部分。
在快速消化的卷积层中,为了平衡加速网络与空间分辨率下降的速度,本方法依次采用卷积层和池化层来构建快速消化卷积层,具体地卷积层1的核为7×7,步长为4,池化层1的核为3×3,步长为2,卷积层2的核为5×5,步长为2,池化层2的核为3×3,步长为2。这样快速消化卷积层的步长为32,即输入图像的大小可以快速下降32倍。为了减少输出通道的数量并减少计算量以加速网络,使用C.ReLU减少一半的输出通道。
在多尺度卷积层中,本部分依次采用Inception1、Inception2、Inception3、卷积层3_1、卷积层3_2、卷积层4_1和卷积层4_2层,其中Inception1、Inception2和Inception3的结构图相同,一个Inception包含4个分支的卷积层和池化层,第一个分支是核为1×1的卷积层,第二个分支依次是一个核为3×3的池化层和一个核为1×1的卷积层,第三个分支依次是一个核为1×1的卷积层和一个核为3×3的卷积层,第四个分支依次是一个核为1×1的卷积层、一个核为3×3的卷积层和一个核为3×3的卷积层。卷积层3_1的核为1×1,卷积层3_2的核为3×3,卷积层4_1的核为1×1,卷积层4_2的核为3×3。为了获得多尺度的特征图,本方法分别提取第三个Inception(Inception3)输出的特征图作为第一个特征图,分别以获取第二个(Conv3_2)和第四个卷积层(Conv4_2)的特征作为第二个和第三个特征图;为了学习不同尺度人脸的视觉模式,与多尺度相对应的层应该包含不同大小的感受野,所以,使用Inception模块实现。
3.利用anchor密集化策略扩充anchor。其过程如下:
(1)设置anchor初始尺寸:Inception3层的anchor尺寸为32、64和128像素,其对应的平移步长为32、32和32,卷积层Conv3_2的anchor尺寸为256像素,其对应的平移步长为64,卷积层Conv4_2的anchor尺寸为512像素,其对应的平移步长为128。
(2)计算anchor的密度:
其中,Ascale为anchor的尺寸,Ainterval为anchor平移的步长,Adensity为anchor的密度。根据(1)中的值计算anchor的密度分别为1、2、4、4和4。
(3)对anchor的密度值小于4的anchor利用anchor密集化策略进行扩充,得到密度大小相同的anchor:
设置Anumber参数,它表示anchor扩充的倍数,此处anchor尺寸为32像素的anchor的Anumber参数设置为4,anchor尺寸为64像素的anchor的Anumber参数设置为2。具体过程为在多尺度特征图上以每个感受野的中心点的周围以anchor中心偏移的方式使anchor变为An 2 umber倍,使得不同尺度的anchor的密度均为4。
4.获得行人人脸的特征图
(1)将3.中所获得的每个特征图输入分类层和边框回归层。
分类层使用softmax损失函数作为分类的依据,用于区分人脸和非人脸,
其中,P(i)为所属类别概率,为模型参数,x为输入,K为分类类别数。此处,K=2,上式可化简为:
边框回归层利用下式调整每个anchor区域:
其中,x、y、w和h分别为预测框的中心点坐标、宽和高,xa、ya、wa和ha分别表示候选区域框的中心点坐标、宽和高,x*、y*、w*和h*分别表示真实框的中心点坐标、宽和高。tx、ty、tw和th分别为anchor的偏移量,即分别为anchor中心点坐标的平移量和anchor宽和高的平移量。和分别为候选区域与真实框之间的中心坐标的平移量、宽和高的平移量。
(2)获得分类标签为人脸的特征:对分类为非人脸的特征图进行去除,仅保留分类为人脸的特征图;
5.将特征通过RoI Pooling层获得大小一致的特征图:
为了将图像中的anchor定位到特征图中对应部分和获得大小一致的特征图,将由4.获得人脸的特征图,通过RoI Pooling层,获得16×16大小的特征图,即低分辨率人脸特征图。
6.利用变换区分解码模块获得中间的高分辨率人脸
全文中低分辨率与高分辨为相对概念,其中低分辨率是由于摄像头设备造成的,即摄像头设备采集监控图像中的人脸则处于低分辨率的水平;高分辨率是通过重建方法提高分辨率来获得高分辨率人脸。
(1)变换区分编码模块包含两个部分:一个对齐上采样模块和一个区分模块。其中,对齐上采样模块依次包含STN1、反卷积层1、STN2、反卷积层2和卷积层1,用于生成高分辨率的人脸图像;区分模块依次包含2个卷积层和池化层(卷积层2(3)和池化层2(3))、池化层4、全连接层1和全连接层2,用于判断输入的高分辨率人脸图像是真实的人脸还是通过高分辨率重建方法重建的人脸。
(1)构建STN,STN包含一个网格生成模块和一个双线性采样器。其中,网格生成网络用于回归出一组六维的变换参数θ并使用该参数生成网格,其中仿射变换公式如下:
其中,为输出特征图上的坐标,为输入特征图上的坐标,θ11、θ12、θ21和θ22是缩放和旋转变换的参数,θ13和θ23是平移变换的参数。
其中,STN1依次包含步长为2的最大池化层、核为5×5的卷积层、C.ReLU、步长为2的最大池化层、核为5×5的卷积层、C.ReLU、全连接层(从400维到20维的映射)和全连接层(从20维到4维的映射)。STN2依次包含步长为2的最大池化层、核为5×5的卷积层、C.ReLU、步长为2的最大池化层、核为5×5的卷积层、C.ReLU、全连接层(从180维到20维的映射)和全连接层(从20维到4维的映射)。
(2)双线性采样器的公式如下:
其中,为输出特征图的通道c上位置(m,n)的像素值,为输入特征图的通道c上位置(xs,ys)的像素值。若(xt,yt)与(m,n)很接近,即若|xt-m|<1且|yt-n|<1,则在(xs,ys)位置插入
(3)使用反卷积提升分辨率:
该层在这里相当于进行上采样的操作。通过调整步长来实现对采样因子的调整,两次反卷积分别采用3×3和5×5大小的核来提升重建的质量。该过程可以有下面公式表示:
F=σ(Wd·FSTN+B)
其中F代表反卷积层的输出,σ代表激活函数,Wd代表反卷积层的权重参数,·反卷积操作,FSTN为STN输出的特征,B为偏置。
(4)使用区分模块进行分类:
该区分模块的输入为由对齐上采样模块重建的高分辨率人脸图像,该图像通过多个的卷积层和最大池化层,之后通过多个全连接层进行二分类操作,具体来说,依次通过核为5×5的卷积层1和池化层1、核为5×5的卷积层2和池化层2、核为5×5的卷积层3和池化层3、池化层4、含有6144神经元的全连接层、含有1024神经元的全连接层和含有1神经元的全连接层并输出图像的类别,即为真实的图像或者是重建的图像。
将由(3)获得的特征图通过对齐上采样模块获得经过粗略对齐的高分辨率人脸特征
检测的行人人脸是不对齐的、含有噪声的低分辨率的图像。为了获得高分辨率的人脸图像,使用反卷积操作来提升分辨;率为了减少噪声,直接采用已经经过人脸检测部分卷积、池化等操作处理过的特征图;为了对齐人脸,融合STN学习不对齐与对齐之间的映射关系,可以对应并较少仅使用反卷积操作带来的重影;
7.利用变换编码模块获得对齐的无噪声的低分辨率人脸特征
由6中所产生的人脸更多的细节信息,但是会产生重影问题(主要是由噪声所引起)。为了消除重影,也为了进一步对齐人脸,使用区分模块中间高分辨率人脸映射成无噪声、对齐的低分辨率版本。
(1)构建变换编码模块:依次使用核为5×5的卷积层1、池化层1、核为3×3的卷积层2、池化层2、STN3、核为3×3的卷积层3、池化层3、STN4、核为3×3的卷积层4和池化层4,输出低分辨率人脸特征图。具体来说,STN3依次包含步长为2的最大池化层、核为5×5的卷积层、C.ReLU、步长为2的最大池化层、核为5×5的卷积层、C.ReLU、步长为2的最大池化层、全连接层(从80维到20维的映射)、C.ReLU和全连接层(从20维到4维的映射)。STN4依次包含核为5×5的卷积层、C.ReLU、步长为2的最大池化层、核为5×5的卷积层、C.ReLU、全连接层(从80维到20维的映射)、C.ReLU和全连接层(从20维到4维的映射)。
(2)将由6所生成的中间的高分辨人脸特征图通过区分模块生成无噪声、对齐的低分辨率版本。
8.利用变换区分解码模块获得最终的高分辨率人脸
变换区分编码模块包含两个部分:一个对齐上采样模块和一个区分模块。其中,对齐上采样模块依次包含STN1、反卷积层1、STN2、反卷积层2和卷积层1,用于生成高分辨率的人脸图像;区分模块依次包含2个卷积层和池化层(卷积层2(3)和池化层2(3))、池化层4、全连接层1和全连接层2,用于判断输入的高分辨率人脸图像是真实的人脸还是通过高分辨率重建方法重建的人脸。
(1)构建STN,STN包含一个网格生成模块和一个双线性采样器。其中,网格生成网络用于回归出一组六维的变换参数θ并使用该参数生成网格,其中仿射变换公式如下:
其中,为输出特征图上的坐标,为输入特征图上的坐标,θ11、θ12、θ21和θ22是缩放和旋转变换的参数,θ13和θ23是平移变换的参数。
其中,STN1依次包含步长为2的最大池化层、核为5×5的卷积层、C.ReLU、步长为2的最大池化层、核为5×5的卷积层、C.ReLU、全连接层(从400维到20维的映射)和全连接层(从20维到4维的映射)。STN2依次包含步长为2的最大池化层、核为5×5的卷积层、C.ReLU、步长为2的最大池化层、核为5×5的卷积层、C.ReLU、全连接层(从180维到20维的映射)和全连接层(从20维到4维的映射)。
(2)双线性采样器的公式如下:
其中,为输出特征图的通道c上位置(m,n)的像素值,为输入特征图的通道c上位置(xs,ys)的像素值。若(xt,yt)与(m,n)很接近,即若|xt-m|<1且|yt-n|<1,则在(xs,ys)位置插入
(3)使用反卷积提升分辨率:
该层在这里相当于进行上采样的操作。通过调整步长来实现对采样因子的调整,两次反卷积分别采用3×3和5×5大小的核来提升重建的质量。该过程可以有下面公式表示:
F=σ(Wd·FSTN+B)
其中F代表反卷积层的输出,σ代表激活函数,Wd代表反卷积层的权重参数,·反卷积操作,FSTN为STN输出的特征,B为偏置。
(4)使用区分模块进行分类:
该区分模块的输入为由对齐上采样模块重建的高分辨率人脸图像,该图像通过多个的卷积层和最大池化层,之后通过多个全连接层进行二分类操作,具体来说,依次通过核为5×5的卷积层1和池化层1、核为5×5的卷积层2和池化层2、核为5×5的卷积层3和池化层3、池化层4、含有6144神经元的全连接层、含有1024神经元的全连接层和含有1神经元的全连接层并输出图像的类别,即为真实的图像或者是重建的图像。
将由(3)获得的特征图通过对齐上采样模块获得经过粗略对齐的高分辨率人脸特征
检测的行人人脸是不对齐的、含有噪声的低分辨率的图像。为了获得高分辨率的人脸图像,使用反卷积操作来提升分辨;率为了减少噪声,直接采用已经经过人脸检测部分卷积、池化等操作处理过的特征图;为了对齐人脸,融合STN学习不对齐与对齐之间的映射关系,可以对应并较少仅使用反卷积操作带来的重影;
9.网络的训练
首先分别训练人脸检测部分和人脸超分辨率部分,然后再训练整个网络,微调两个部分的权值,使两者更加适应彼此。
(1)行人人脸检测部分的训练
所有的参数使用“xavier”方法进行随机初始化。采用随机梯度下降算法训练模型,其中动量设置为0.9。权重衰减率设置为0.0005,batch-size设置为32,学习率初始设置为10-3。
人脸检测部分训练的损失函数为:
L(p,u,tu,v)=Lcls(p,u)+λ[u=1]Lloc(tu,v)
其中,整体损失函数L是由分类层损失函数Lcls和检测为人脸即u=1边框定位损失函数Lloc在权重参数λ的平衡下相加得到。Lcls为分类层损失函数,p=(p0,…,pu,…pk)为softmax层输出k+1类别的概率,此处k=1,即输出非人脸和人脸两个类别的概率,Lcls=-log pu表示真实的标签为u的误差,此处u=0表示非人脸或u=1表示人脸;Lcls为边框定位的损失函数,仅在检测为人脸时起作用,其中,令
j=1,2,3,4,和vj分别表示v=(v1,v2,v3,v4)=(vx,vy,vw,vh)表示预测人脸框的横坐标、纵坐标、宽度和高度,表示真实人脸的横坐标、纵坐标、宽度和高度;λ为用于平衡Lcls和Lloc的权重的参数,取值为10。
(2)人脸超分辨部分的训练
变换区分解码模块的训练:
该模块中对齐上采样模块的损失函数U(s)使用像素间的L2范数,其损失函数可以写为:
表示最小化损失函数U(s)也就是最小化重建的高分辨率人脸与真实的高分辨人脸hi之误差的L2范数的数学期望,即使得重建的高分辨率人脸与真实的高分辨人脸hi更加接近。其中,s表示对齐上采样模块的参数,表示L2范数,表示输入的含噪声不对齐的低分辨率的人脸特征图,hi表示高分辨率的ground-truth人脸图像,p(ln,h)表示低分辨率和高分辨率人脸的联合概率分布,表示对齐上采样模块输出的高分辨率的人脸图像。
但是因为仅仅使用像素间相似性损失进行训练将导致产生平滑的结果,因此利用区分模块的二分类器使得对齐上采样模块所生成的高分辨率人脸图像更趋向真实人脸图像,该二分类器用于判断是真实人脸图像还是通过某种方法所生成的人脸图像,即若根据该信息的值不能判断所生产的高分辨率人脸图像是网络生成的,而是真实的图像,则表明所生成的高分辨率人脸图像与真实的图像非常相似,使得该对齐上采样模块所生成的高分辨率人脸更加真实。因此,最大化分区模块的交叉熵如下:
表示由变换区分解码模块所生成的高分辨率人脸与真实的人脸hi接近使得区分模块难以分辨,即由变换区分解码模块所生成的高分辨率人脸与真实的人脸hi通过区分模块造成的交叉熵误差损失最大。其中,t表示分区模块的参数,D表示该区分模块的函数,D(hi)表示真实的人脸hi通过分区模块的输出,表示高分辨重建的人脸通过区分模块的输出,p(h)和分别表示真实的人脸概率分布和高分辨率重建的人脸的概率分布。
为了更新对齐上采样模块的参数,使用最大化区分模块的损失函数L(t)进行反向传播,其中区分模块的参数t在第i+1次迭代时更新过程如下:
其中,r表示学习率,设置为10-4,γ表示衰减率,设置为0.0005,i表示第i次迭代,Δ表示损失的残差变化,用于参数t的更新。ε被设置为10-8来避免除数为0。对于对齐上采样模块,联合使用对齐上采样模块的损失函数U和区分模块的损失函数L并通过随机梯度下降算法更新参数s:
其中,μ表示对齐上采样模块的损失函数U和区分模块的损失函数L的偏导数之间的权重因子,设置权重因子的初始值为0.01,并用下面公式更新权重因子的值:
μk=max{μ·0.99k,μ/2}
其中,k表示epoch的次数。
变换编码器模块的训练:
该模块的目标函数为:
表示最小化损失函数E(e)也就是最小化重建的高分辨率人脸通过Ψ产生的低分辨率人脸与真实的低分辨人脸li之间误差的L2范数的数学期望,即使得通过变换编码器得到的低分辨率人脸(即)与真实的低分辨人脸li更加接近。其中,e表示变换编码模块的参数,li表示真实的低分辨率人脸图像,表示低分辨率和高分辨率重建人脸的联合概率分布表示从中间上采样的高分辨率的人脸图像到低分辨率人脸的映射。
变换区分解码模块的训练:
该模块中对齐上采样模块的损失函数U(s)使用像素间的L2范数,其损失函数写为:
表示最小化损失函数U(s)也就是最小化重建的高分辨率人脸与真实的高分辨人脸hi之误差的L2范数的数学期望,即使得重建的高分辨率人脸与真实的高分辨人脸hi更加接近。其中,s表示对齐上采样模块的参数,表示L2范数,表示输入的含噪声不对齐的低分辨率的人脸特征图,hi表示高分辨率的ground-truth人脸图像,表示低分辨率和高分辨率人脸的联合概率分布,表示对齐上采样模块输出的高分辨率的人脸图像。
该模块中区分模块的损失函数L(t)为最大化分区模块的交叉熵如下:
表示由变换区分解码模块所生成的高分辨率人脸与真实的人脸hi接近使得区分模块难以分辨,即由变换区分解码模块所生成的高分辨率人脸与真实的人脸hi通过区分模块造成的交叉熵误差损失最大。其中,t表示分区模块的参数,D(hi)表示真实的人脸hi通过分区模块的输出,表示高分辨重建的人脸通过区分模块的输出,p(h)和分别表示真实的人脸概率分布和高分辨率重建的人脸的概率分布。
更新对齐上采样模块的参数:使用最大化区分模块的损失函数L(t)进行反向传播,其中区分模块的参数t在第i+1次迭代时更新过程如下:
其中,r表示学习率,设置为10-4,γ表示衰减率,设置为0.0005,i表示第i次迭代,Δ表示损失的残差变化,用于参数t的更新。ε被设置为10-8来避免除数为0。对于对齐上采样模块,联合使用对齐上采样模块的损失函数U和区分模块的损失函数L并通过随机梯度下降算法更新参数s:
其中,μ表示对齐上采样模块的损失函数U和区分模块的损失函数L的偏导数之间的权重因子,设置权重因子的初始值为0.01,并用下面公式更新权重因子的值:
μk=max{μ·0.99k,μ/2}
其中,k表示epoch的次数。
(3)整个网络的训练
采用随机梯度下降算法训练整个网络的模型,其中动量设置为0.9。权重衰减率设置为0.0005,batch-size设置为32,学习率初始设置为10-4。
10.网络的测试
输入一张行人图像,通过行人人脸检测部分得到人脸的特征图,然后通过人脸高分辨率部分获得高分辨率重建人脸图像。
综上所述,针对实际视频监控中的人脸识别与实际中的差距,本发明提出一种联合行人人脸检测和人脸超分辨率的超分辨率重建方法,使得将行人人脸检测和人脸超分辨率方法融合在一个统一的网络中,实现以端到端的方式输出人脸超分辨率图像;并针对行人人脸不可避免的不对齐、含有噪声提出很好的解决方法。本发明将行人图像作为输入,利用行人人脸检测部分检测人脸,之后把人脸的特征图利用RoI Pooling层统一成固定的大小,再通过人脸超分辨率部分,最终输出行人人脸的超分辨率图像。为视频监控的再识别技术提供有效的信息,帮助完成寻找特定行人的任务,突破现有依靠行人再识别中行人外表等属性来区分不同的行人,使得关键的人脸信息可以有效地利用起来。
最后,本发明的方法仅为较佳的实施方案,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (1)
1.一种面向监控场景的行人人脸超分辨率重建方法,其实现过程包括以下步骤:
步骤1:数据预处理;
视频监控中的静态图像作为输入图像,对输入图像进行预处理,即将输入图像依次进行随机裁剪、尺度变换和水平翻转,得到预处理过的图像样本;
步骤2:使用快速消化卷积层得到特征图;
步骤2.1:构建包含2个卷积层、2个池化层和含有2个C.ReLU激活函数的快速消化卷积层;
步骤2.2:将由步骤1获得的图像样本通过快速消化卷积层,通过卷积层提取特征,再通过C.ReLU,再通过池化层映射特征,获得特征图;
步骤3:使用多尺度卷积层获得不同尺度的人脸特征图;
步骤3.1:构建Inception模块,该模块包含4个分的卷积层和池化层,第一个分支为核大小为1×1的卷积层,第二个分为依次为核大小为3×3的池化层和1×1的卷积层,第三个分支依次为核大小为1×1的卷积层和3×3的卷积层,第四个分支依次为核大小为1×1的卷积层、3×3的卷积层和3×3的卷积层;
步骤3.2:构建包含3个Inception模块和4个卷积层的多尺度卷积层;
步骤3.3:将由步骤2获得的特征图通过多尺度卷积层,经过Inception模块和卷积层提取特征,以获取第三个Inception(Inception3)输出的特征图作为第一个特征图,分别以获取第二个(Conv3_2)和第四个卷积层(Conv4_2)的特征作为第二个和第三个特征图;
步骤4:利用anchor密集化策略扩充anchor
步骤4.1:设置anchor初始尺寸:Inception3层的anchor尺寸为32、64和128像素,卷积层Conv3_2的anchor尺寸为256和512像素,卷积层Conv4_2的anchor尺寸为256和512像素;
步骤4.2:计算anchor的密度:
其中,Ascale为anchor的尺寸,Ainterval为anchor平移的步长,Adensity为anchor的密度;这里,在Inception3中的Ainterval默认为32、32和32,在Conv3_2中的Ainterval默认为64,在Conv4_2中的Ainterval默认为128;
步骤4.3:对密度值不是最高的anchor利用anchor密集化策略进行扩充,得到密度大小相同的anchor:
步骤4.3.1:设置Anumber参数,表示anchor扩充的倍数;
步骤4.3.2:在每个感受野中心的周围以anchor中心偏移的方式使anchor变为倍;
步骤5:获得行人人脸的特征图
步骤5.1:将由步骤4获得的每个特征输入分类层和边框回归层:
步骤5.1.1:使用Softmax损失函数作为分类器来分类非人脸和人脸,即
其中,P(i)为所属类别概率,为模型参数,x为输入,K为分类类别数;此处,K=2,上式可化简为:
步骤5.1.2:边框回归层利用下式调整每个anchor区域:
其中,x、y、w和h分别为预测框的中心点坐标、宽和高,xa、ya、wa和ha分别表示候选区域框的中心点坐标、宽和高,x*、y*、w*和h*分别表示真实框的中心点坐标、宽和高;tx、ty、tw和th分别为anchor的偏移量,即分别为anchor中心点坐标的平移量和anchor宽和高的平移量;和分别为候选区域与真实框之间的中心坐标的平移量、宽和高的平移量;
步骤5.2:获得分类标签为人脸的特征:对分类为非人脸的特征图进行去除,仅保留分类为人脸的特征图;
步骤6:将特征通过RoI Pooling层获得大小一致的特征图:
为了将图像中的anchor定位到特征图中对应部分和获得大小一致的特征图,将由步骤5获得人脸的特征图,通过RoI Pooling层,获得大小一致的特征图,即低分辨率人脸特征图;
步骤7:利用变换区分解码模块获得中间的高分辨率人脸
全文中低分辨率与高分辨为相对概念,其中低分辨率是由于摄像头设备造成的,即摄像头设备采集监控图像中的人脸则处于低分辨率的水平;高分辨率是通过重建方法提高分辨率来获得高分辨率人脸;
步骤7.1:变换区分解码模块包含两个部分:一个对齐上采样模块和一个区分模块;
其中,对齐上采样模块依次包含STN模块、反卷积层、STN模块、反卷积层和卷积层,用于生成高分辨率的人脸图像;区分模块依次包含多个卷积层、池化层和全连接层,用于判断输入的高分辨率人脸图像是真实的人脸还是通过高分辨率重建方法重建的人脸;
步骤7.1.1:使用STN对齐图像得到对齐的特征图:
构建STN,STN包含一个网格生成模块和一个双线性采样器;其中,网格生成网络用于回归出一组六维的变换参数θ,并使用该参数生成网格,其中仿射变换公式如下:
其中,为输出特征图上的坐标,为输入特征图上的坐标,θ11、θ12、θ21和θ22是缩放和旋转变换的参数,θ13和θ23是平移变换的参数;
双线性采样器的公式如下:
其中,为输出特征图的通道c上位置(m,n)的像素值,为输入特征图的通道c上位置(xs,ys)的像素值;若(xt,yt)与(m,n)很接近,即若|xt-m|<1且|yt-n|<1,则在(xs,ys)位置插入
步骤7.1.2:使用反卷积得到高分辨率人脸:
该层在这里相当于进行上采样的操作;通过调整步长来实现对采样因子的调整,两次反卷积分别采用3×3和5×5大小的核;该过程由下面公式表示:
F=σ(Wd·FSTN+B)
其中F代表反卷积层的输出,σ代表激活函数,Wd代表反卷积层的权重参数,表示反卷积操作,FSTN为STN输出的特征,B为偏置;
步骤7.1.3:使用区分模块进行分类:
该区分模块的输入为由对齐上采样模块重建的高分辨率人脸图像,该图像通过多个卷积层和最大池化层,然后通过多个全连接层进行二分类操作;
步骤7.2:将由步骤6获得的低分辨率人脸特征图通过由步骤7.1构建的对齐上采样模块获得粗略对齐的高分辨率人脸特征
步骤8:利用变换编码模块获得对齐的无噪声的低分辨率人脸特征
步骤8.1:依次使用两组卷积层和最大池化层、STN模块、卷积层、最大池化层和STN构建变换编码模块;
步骤8.2:将由步骤7所生成的中间的高分辨人脸特征图通过区分模块生成无噪声、对齐的低分辨率人脸图像;
步骤9:利用变换区分解码模块获得最终的高分辨率人脸
步骤9.1:变换区分解码模块包含两个部分:一个对齐上采样模块和一个区分模块;其中,对齐上采样模块依次包含STN模块、反卷积层、STN模块、反卷积层和卷积层,用于生成高分辨率的人脸图像;区分模块依次包含多个卷积层、池化层和全连接层,用于判断输入的高分辨率人脸图像是真实的人脸还是通过高分辨率重建方法重建的人脸;
步骤9.2:将由步骤8所生成的低分辨人脸特征图通过对齐上采样模块生成最终高分辨率的人脸图像;
步骤10:网络的训练过程
首先分别训练人脸检测部分和人脸超分辨率部分,然后再训练整个网络,微调两个部分的权值,使两者更加适应彼此;
步骤10.1:训练参数设置:
所有参数使用“xavier”方法进行随机初始化;采用随机梯度下降算法训练模型,其中动量设置为0.9;权重衰减率设置为0.0005,batch-size设置为32,学习率初始设置为10-3;
步骤10.2:人脸检测部分的训练
人脸检测部分训练的损失函数为:
L(p,u,tu,v)=Lcls(p,u)+λ[u=1]Lloc(tu,v)
其中,整体损失函数L是由分类层损失函数Lcls和检测为人脸即u=1边框定位损失函数Lloc在权重参数λ的平衡下相加得到;Lcls为分类层损失函数,p=(p0,...,pu,...pk)为softmax层输出k+1类别的概率,此处k=1,即输出非人脸和人脸两个类别的概率,Lcls=-logpu表示真实的标签为u的误差,此处u=0表示非人脸或u=1表示人脸;Lcls为边框定位的损失函数,仅在检测为人脸时起作用,其中,令
j=1,2,3,4,和vj分别表示v=(v1,v2,v3,v4)=(vx,vy,vw,vh)表示预测人脸框的横坐标、纵坐标、宽度和高度,表示真实人脸的横坐标、纵坐标、宽度和高度;λ为用于平衡Lcls和Lloc的权重的参数,取值为10;
步骤10.3:人脸超分辨率部分的训练
步骤10.3.1:变换区分解码模块的训练
该模块中对齐上采样模块的损失函数U(s)使用像素间的L2范数,其损失函数写为:
表示最小化损失函数U(s)也就是最小化重建的高分辨率人脸与真实的高分辨人脸hi之误差的L2范数的数学期望,即使得重建的高分辨率人脸与真实的高分辨人脸hi更加接近;其中,s表示对齐上采样模块的参数,表示L2范数,表示输入的含噪声不对齐的低分辨率的人脸特征图,hi表示高分辨率的ground-truth人脸图像,p(ln,h)表示低分辨率和高分辨率人脸的联合概率分布,表示对齐上采样模块输出的高分辨率的人脸图像;
该模块中区分模块的损失函数L(t)为最大化分区模块的交叉熵如下:
表示由变换区分解码模块所生成的高分辨率人脸与真实的人脸hi接近使得区分模块难以分辨,即由变换区分解码模块所生成的高分辨率人脸与真实的人脸hi通过区分模块造成的交叉熵误差损失最大;其中,t表示分区模块的参数,D(hi)表示真实的人脸hi通过分区模块的输出,表示高分辨重建的人脸通过区分模块的输出,p(h)和分别表示真实的人脸概率分布和高分辨率重建的人脸的概率分布;
更新对齐上采样模块的参数:使用最大化区分模块的损失函数L(t)进行反向传播,其中区分模块的参数t在第i+1次迭代时更新过程如下:
其中,r表示学习率,设置为10-4,γ表示衰减率,设置为0.0005,i表示第i次迭代,Δ表示损失的残差变化,用于参数t的更新;ε被设置为10-8来避免除数为0;对于对齐上采样模块,联合使用对齐上采样模块的损失函数U和区分模块的损失函数L并通过随机梯度下降算法更新参数s:
其中,μ表示对齐上采样模块的损失函数U和区分模块的损失函数L的偏导数之间的权重因子,设置权重因子的初始值为0.01,并用下面公式更新权重因子的值:
μk=max{μ·0.99k,μ/2}
其中,k表示epoch的次数;
步骤10.3.2:变换编码器模块的训练
该模块的目标函数为:
表示最小化损失函数E(e)也就是最小化重建的高分辨率人脸通过Ψ产生的低分辨率人脸与真实的低分辨人脸li之间误差的L2范数的数学期望,即使得通过变换编码器得到的低分辨率人脸(即)与真实的低分辨人脸li更加接近;其中,e表示变换编码模块的参数,li表示真实的低分辨率人脸图像,表示低分辨率和高分辨率重建人脸的联合概率分布表示从中间上采样的高分辨率的人脸图像到低分辨率人脸的映射;
步骤10.3.3:变换区分解码模块的训练
该模块中对齐上采样模块的损失函数U(s)使用像素间的L2范数,其损失函数写为:
表示最小化损失函数U(s)也就是最小化重建的高分辨率人脸与真实的高分辨人脸hi之误差的L2范数的数学期望,即使得重建的高分辨率人脸与真实的高分辨人脸hi更加接近;其中,s表示对齐上采样模块的参数,表示L2范数,表示输入的含噪声不对齐的低分辨率的人脸特征图,hi表示高分辨率的ground-truth人脸图像,p(ln,h)表示低分辨率和高分辨率人脸的联合概率分布,表示对齐上采样模块输出的高分辨率的人脸图像;
该模块中区分模块的损失函数L(t)为最大化分区模块的交叉熵如下:
表示由变换区分解码模块所生成的高分辨率人脸与真实的人脸hi接近使得区分模块难以分辨,即由变换区分解码模块所生成的高分辨率人脸与真实的人脸hi通过区分模块造成的交叉熵误差损失最大;其中,t表示分区模块的参数,D(hi)表示真实的人脸hi通过分区模块的输出,表示高分辨重建的人脸通过区分模块的输出,p(h)和分别表示真实的人脸概率分布和高分辨率重建的人脸的概率分布;
更新对齐上采样模块的参数:使用最大化区分模块的损失函数L(t)进行反向传播,其中区分模块的参数t在第i+1次迭代时更新过程如下:
其中,r表示学习率,设置为10-4,γ表示衰减率,设置为0.0005,i表示第i次迭代,Δ表示损失的残差变化,用于参数t的更新;ε被设置为10-8来避免除数为0;对于对齐上采样模块,联合使用对齐上采样模块的损失函数U和区分模块的损失函数L并通过随机梯度下降算法更新参数s:
其中,μ表示对齐上采样模块的损失函数U和区分模块的损失函数L的偏导数之间的权重因子,设置权重因子的初始值为0.01,并用下面公式更新权重因子的值:
μk=max{μ·0.99k,μ/2}
其中,k表示epoch的次数;
步骤10.3:整个网络的训练
采用随机梯度下降算法训练整个网络的模型,其中动量设置为0.9;权重衰减率设置为0.0005,batch-size设置为32,学习率初始设置为10-4;
步骤11:网络的测试
输入一张行人图像,通过行人人脸检测部分得到人脸的特征图,然后通过人脸高分辨率部分获得高分辨率重建人脸图像。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810224421.0A CN108765279A (zh) | 2018-03-19 | 2018-03-19 | 一种面向监控场景的行人人脸超分辨率重建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810224421.0A CN108765279A (zh) | 2018-03-19 | 2018-03-19 | 一种面向监控场景的行人人脸超分辨率重建方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108765279A true CN108765279A (zh) | 2018-11-06 |
Family
ID=63980514
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810224421.0A Withdrawn CN108765279A (zh) | 2018-03-19 | 2018-03-19 | 一种面向监控场景的行人人脸超分辨率重建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108765279A (zh) |
Cited By (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109711386A (zh) * | 2019-01-10 | 2019-05-03 | 北京达佳互联信息技术有限公司 | 获取识别模型的方法、装置、电子设备及存储介质 |
CN109740505A (zh) * | 2018-12-29 | 2019-05-10 | 成都视观天下科技有限公司 | 一种训练数据生成方法、装置及计算机设备 |
CN109784291A (zh) * | 2019-01-23 | 2019-05-21 | 电子科技大学 | 基于多尺度的卷积特征的行人检测方法 |
CN109903373A (zh) * | 2019-02-19 | 2019-06-18 | 华南理工大学 | 一种基于多尺度残差网络的高质量人脸生成方法 |
CN110097114A (zh) * | 2019-04-26 | 2019-08-06 | 新华三技术有限公司 | 一种应用于神经网络的先验框确定方法及装置 |
CN110211041A (zh) * | 2019-05-08 | 2019-09-06 | 云南大学 | 一种基于感受野集成的神经网络图像分类器的优化方法 |
CN110334602A (zh) * | 2019-06-06 | 2019-10-15 | 武汉市公安局视频侦查支队 | 一种基于卷积神经网络的人流量统计方法 |
CN110415171A (zh) * | 2019-07-08 | 2019-11-05 | 北京三快在线科技有限公司 | 图像处理方法、装置及存储介质、电子设备 |
CN110674688A (zh) * | 2019-08-19 | 2020-01-10 | 深圳力维智联技术有限公司 | 用于视频监控场景的人脸识别模型获取方法、系统和介质 |
CN110689558A (zh) * | 2019-09-30 | 2020-01-14 | 清华大学 | 多传感器图像增强方法及装置 |
CN110765864A (zh) * | 2019-09-17 | 2020-02-07 | 北京大学 | 一种基于分辨率无关特征的图片行人再识别系统及方法 |
CN111291669A (zh) * | 2020-01-22 | 2020-06-16 | 武汉大学 | 一种双通道俯角人脸融合校正gan网络及人脸融合校正方法 |
CN111339886A (zh) * | 2020-02-19 | 2020-06-26 | 中山大学 | 一种基于相似性损失的行为识别方法 |
CN111681298A (zh) * | 2020-06-08 | 2020-09-18 | 南开大学 | 一种基于多特征残差网络的压缩感知图像重建方法 |
CN111812096A (zh) * | 2020-06-02 | 2020-10-23 | 国网浙江嘉善县供电有限公司 | 一种绝缘子电弧烧伤的快速定位智能图像检测方法 |
CN111832508A (zh) * | 2020-07-21 | 2020-10-27 | 桂林电子科技大学 | 基于die_ga的低照度目标检测方法 |
CN112766108A (zh) * | 2021-01-08 | 2021-05-07 | 西安电子科技大学 | 基于上下文信息的sar图像目标检测方法 |
WO2021098799A1 (en) * | 2019-11-20 | 2021-05-27 | Guangdong Oppo Mobile Telecommunications Corp., Ltd. | Face detection device, method and face unlock system |
US20210272239A1 (en) * | 2019-04-29 | 2021-09-02 | Intel Corporation | Method and apparatus for person super resolution from low resolution image |
CN113591825A (zh) * | 2021-10-08 | 2021-11-02 | 湖南大学 | 基于超分辨网络的目标搜索重建方法、装置及存储介质 |
CN113836974A (zh) * | 2020-06-23 | 2021-12-24 | 江苏翼视智能科技有限公司 | 一种基于超分辨率重构的监控视频行人检测方法 |
WO2022057868A1 (zh) * | 2020-09-21 | 2022-03-24 | 华为技术有限公司 | 图像超分方法和电子设备 |
CN117238020A (zh) * | 2023-11-10 | 2023-12-15 | 杭州启源视觉科技有限公司 | 人脸识别方法、装置和计算机设备 |
-
2018
- 2018-03-19 CN CN201810224421.0A patent/CN108765279A/zh not_active Withdrawn
Cited By (35)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109740505A (zh) * | 2018-12-29 | 2019-05-10 | 成都视观天下科技有限公司 | 一种训练数据生成方法、装置及计算机设备 |
CN109711386A (zh) * | 2019-01-10 | 2019-05-03 | 北京达佳互联信息技术有限公司 | 获取识别模型的方法、装置、电子设备及存储介质 |
CN109784291A (zh) * | 2019-01-23 | 2019-05-21 | 电子科技大学 | 基于多尺度的卷积特征的行人检测方法 |
CN109784291B (zh) * | 2019-01-23 | 2020-10-23 | 电子科技大学 | 基于多尺度的卷积特征的行人检测方法 |
CN109903373A (zh) * | 2019-02-19 | 2019-06-18 | 华南理工大学 | 一种基于多尺度残差网络的高质量人脸生成方法 |
CN110097114A (zh) * | 2019-04-26 | 2019-08-06 | 新华三技术有限公司 | 一种应用于神经网络的先验框确定方法及装置 |
CN110097114B (zh) * | 2019-04-26 | 2021-06-29 | 新华三技术有限公司 | 一种应用于神经网络的先验框确定方法及装置 |
US20210272239A1 (en) * | 2019-04-29 | 2021-09-02 | Intel Corporation | Method and apparatus for person super resolution from low resolution image |
US11734798B2 (en) * | 2019-04-29 | 2023-08-22 | Intel Corporation | Method and apparatus for person super resolution from low resolution image |
CN110211041A (zh) * | 2019-05-08 | 2019-09-06 | 云南大学 | 一种基于感受野集成的神经网络图像分类器的优化方法 |
CN110211041B (zh) * | 2019-05-08 | 2023-06-23 | 云南大学 | 一种基于感受野集成的神经网络图像分类器的优化方法 |
CN110334602A (zh) * | 2019-06-06 | 2019-10-15 | 武汉市公安局视频侦查支队 | 一种基于卷积神经网络的人流量统计方法 |
CN110334602B (zh) * | 2019-06-06 | 2021-10-26 | 武汉市公安局视频侦查支队 | 一种基于卷积神经网络的人流量统计方法 |
CN110415171B (zh) * | 2019-07-08 | 2021-06-25 | 北京三快在线科技有限公司 | 图像处理方法、装置及存储介质、电子设备 |
CN110415171A (zh) * | 2019-07-08 | 2019-11-05 | 北京三快在线科技有限公司 | 图像处理方法、装置及存储介质、电子设备 |
CN110674688A (zh) * | 2019-08-19 | 2020-01-10 | 深圳力维智联技术有限公司 | 用于视频监控场景的人脸识别模型获取方法、系统和介质 |
CN110765864A (zh) * | 2019-09-17 | 2020-02-07 | 北京大学 | 一种基于分辨率无关特征的图片行人再识别系统及方法 |
CN110689558A (zh) * | 2019-09-30 | 2020-01-14 | 清华大学 | 多传感器图像增强方法及装置 |
CN110689558B (zh) * | 2019-09-30 | 2022-07-22 | 清华大学 | 多传感器图像增强方法及装置 |
WO2021098799A1 (en) * | 2019-11-20 | 2021-05-27 | Guangdong Oppo Mobile Telecommunications Corp., Ltd. | Face detection device, method and face unlock system |
CN111291669B (zh) * | 2020-01-22 | 2023-08-04 | 武汉大学 | 一种双通道俯角人脸融合校正gan网络及人脸融合校正方法 |
CN111291669A (zh) * | 2020-01-22 | 2020-06-16 | 武汉大学 | 一种双通道俯角人脸融合校正gan网络及人脸融合校正方法 |
CN111339886B (zh) * | 2020-02-19 | 2024-01-09 | 中山大学 | 一种基于相似性损失的行为识别方法 |
CN111339886A (zh) * | 2020-02-19 | 2020-06-26 | 中山大学 | 一种基于相似性损失的行为识别方法 |
CN111812096A (zh) * | 2020-06-02 | 2020-10-23 | 国网浙江嘉善县供电有限公司 | 一种绝缘子电弧烧伤的快速定位智能图像检测方法 |
CN111812096B (zh) * | 2020-06-02 | 2023-07-07 | 国网浙江嘉善县供电有限公司 | 一种绝缘子电弧烧伤的快速定位智能图像检测方法 |
CN111681298A (zh) * | 2020-06-08 | 2020-09-18 | 南开大学 | 一种基于多特征残差网络的压缩感知图像重建方法 |
CN113836974A (zh) * | 2020-06-23 | 2021-12-24 | 江苏翼视智能科技有限公司 | 一种基于超分辨率重构的监控视频行人检测方法 |
CN111832508B (zh) * | 2020-07-21 | 2022-04-05 | 桂林电子科技大学 | 基于die_ga的低照度目标检测方法 |
CN111832508A (zh) * | 2020-07-21 | 2020-10-27 | 桂林电子科技大学 | 基于die_ga的低照度目标检测方法 |
WO2022057868A1 (zh) * | 2020-09-21 | 2022-03-24 | 华为技术有限公司 | 图像超分方法和电子设备 |
CN112766108A (zh) * | 2021-01-08 | 2021-05-07 | 西安电子科技大学 | 基于上下文信息的sar图像目标检测方法 |
CN113591825A (zh) * | 2021-10-08 | 2021-11-02 | 湖南大学 | 基于超分辨网络的目标搜索重建方法、装置及存储介质 |
CN117238020A (zh) * | 2023-11-10 | 2023-12-15 | 杭州启源视觉科技有限公司 | 人脸识别方法、装置和计算机设备 |
CN117238020B (zh) * | 2023-11-10 | 2024-04-26 | 杭州启源视觉科技有限公司 | 人脸识别方法、装置和计算机设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108765279A (zh) | 一种面向监控场景的行人人脸超分辨率重建方法 | |
CN111047548B (zh) | 姿态变换数据处理方法、装置、计算机设备和存储介质 | |
CN109299274B (zh) | 一种基于全卷积神经网络的自然场景文本检测方法 | |
CN108108751B (zh) | 一种基于卷积多特征和深度随机森林的场景识别方法 | |
CN108537743A (zh) | 一种基于生成对抗网络的面部图像增强方法 | |
CN106407903A (zh) | 基于多尺度卷积神经网络的实时人体异常行为识别方法 | |
CN107749052A (zh) | 基于深度学习神经网络的图像去雾方法及系统 | |
CN111861945B (zh) | 一种文本引导的图像修复方法和系统 | |
CN112396607A (zh) | 一种可变形卷积融合增强的街景图像语义分割方法 | |
CN111160164A (zh) | 基于人体骨架和图像融合的动作识别方法 | |
CN109977922A (zh) | 一种基于生成对抗网络的行人掩模生成方法 | |
CN110705566B (zh) | 一种基于空间金字塔池的多模态融合显著性检测方法 | |
CN114596520A (zh) | 一种第一视角视频动作识别方法及装置 | |
CN110517270B (zh) | 一种基于超像素深度网络的室内场景语义分割方法 | |
CN113112416B (zh) | 一种语义引导的人脸图像修复方法 | |
CN112037239B (zh) | 基于多层次显式关系选择的文本指导图像分割方法 | |
Hongmeng et al. | A detection method for deepfake hard compressed videos based on super-resolution reconstruction using CNN | |
CN112070040A (zh) | 一种用于视频字幕的文本行检测方法 | |
CN115131849A (zh) | 图像生成方法以及相关设备 | |
CN115457568A (zh) | 一种基于生成对抗网络的历史文档图像降噪方法及系统 | |
CN114782979A (zh) | 一种行人重识别模型的训练方法、装置、存储介质及终端 | |
CN109284752A (zh) | 一种车辆的快速检测方法 | |
CN110782503B (zh) | 一种基于两分支深度相关网络的人脸图像合成方法和装置 | |
Fu | Digital Image Art Style Transfer Algorithm Based on CycleGAN | |
CN116682178A (zh) | 密集场景下的多人姿态检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20181106 |