CN111950515B - 一种基于语义特征金字塔网络的小人脸检测方法 - Google Patents

一种基于语义特征金字塔网络的小人脸检测方法 Download PDF

Info

Publication number
CN111950515B
CN111950515B CN202010870140.XA CN202010870140A CN111950515B CN 111950515 B CN111950515 B CN 111950515B CN 202010870140 A CN202010870140 A CN 202010870140A CN 111950515 B CN111950515 B CN 111950515B
Authority
CN
China
Prior art keywords
anchor
network
semantic
features
face
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010870140.XA
Other languages
English (en)
Other versions
CN111950515A (zh
Inventor
周丽芳
李连琼
李伟生
熊超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202010870140.XA priority Critical patent/CN111950515B/zh
Publication of CN111950515A publication Critical patent/CN111950515A/zh
Application granted granted Critical
Publication of CN111950515B publication Critical patent/CN111950515B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明请求保护一种基于语义特征金字塔网络的小人脸检测方法,属于人脸检测技术领域。其中,所述方法包括以下步骤:步骤1.以SFD人脸检测方法为基础模型,为了增强预测特征的语义信息,本发明设计了一个语义特征金字塔网络。步骤2.为了提高小人脸的召回率,减少固定分类阈值造成的错误分类样本数量,本发明提出了一个尺度自适应匹配算法,进行anchor匹配和样本分类。步骤3.为了缓解网络中正负样本不平衡问题,本发明采用focal loss计算网络的分类损失,通过迭代训练、更新参数得到最终的网络模型。在增加少量计算量的情况下,本发明有效的提取了小人脸检测所必需的语义信息,增强了网络的特征表达能力,提高了小人脸的召回率,缓解了检测器的样本不平衡问题。

Description

一种基于语义特征金字塔网络的小人脸检测方法
技术领域
本发明属于图像处理技术领域,特别涉及基于特征金字塔的小人脸检测方法。
背景技术
近几年来,深度学习的兴起促使人脸检测快速发展,越来越多的人脸智能检测仪器走进人们的日常生活中。尽管人脸检测借助深度卷积神经网络在一些挑战性环境下取得突破性进展,比如:光照、姿态、遮挡、旋转等无约束环境。但是对于多尺度问题仍然没有很好的解决,尤其是小人脸。这极大程度的降低了人脸检测器能在公共场所发挥的作用,限制了人脸检测器在实际生活中的部署应用。一款高性能的人脸(尤其是小人脸)检测器对于维护公众安全、预防不法分子扰乱公共秩序至关重要。因此小人脸检测器具有极大的实用价值和迫切的社会需求。
目前,基于深度学习的人脸检测器主要分为两类:基于proposal-driven的两阶段检测器和基于regression-oriented的单阶段检测器。由于对检测的实时性需求,单阶段检测器更能满足人们的需求。但随着人脸尺度的降低,单阶段检测器的性能也随之降低。主要原因如下:1)单阶段检测器使用具有高分辨率的大尺度特征检测小人脸。但是浅层的大尺度特征语义信息不强,无法足够表达小人脸的特征,使得小人脸检测的准确性较低。2)为了捕获到人脸,网络密集铺设了大量anchor,但小人脸的召回率并不高,所以小人脸检测精度低于大中尺度人脸。3)网络产生的样本中存在大量负样本,导致极度的样本不平衡,损害了检测器的性能。为了解决以上问题,本发明提供了一种基于语义特征金字塔的单阶段小人脸检测器。
发明内容
本发明旨在解决以上现有技术的问题。提出了一种基于语义特征金字塔的小人脸检测方法。本发明的技术方案如下:
一种基于语义特征金字塔的小人脸检测方法,其包括以下步骤:
步骤1:将目标图像输入到SFD网络得到用于构建语义特征金字塔网络的输入特征;在特征融合之前,将设计的语义聚集模块插入特征金字塔顶层用来增强其语义信息;在特征融合过程,为了减少FPN特征融合中降维操作带来的信息损失,对增强了语义信息的顶层特征以及后续的融合特征进行全局平均池化处理,然后以FPN横向连接方式和自上而下路径进行特征融合,得到语义特征金字塔网络的浅层特征。最后以自下而上路径,在增强了语义信息的顶层特征上增加额外的卷积层,得到语义特征金字塔网络的深层特征,从而得到了含有丰富语义信息的语义特征金字塔网络。
步骤2:使用步骤1中构建的语义特征金字塔网络,如图2所示,进行训练得到网络输出anchor(锚框)。为了减少主干网络采用固定阈值进行anchor匹配产生的错误分类样本数量并提高小人脸的召回率,本发明采用尺度自适应匹配算法进行anchor匹配从而得到样本分类标签。首先将网络输出的anchor与 ground truth中心点距离和iou结合作为候选样本分类指标,按尺度为每个人脸分类候选样本,然后计算候选样本iou的均值和方差之和作为动态阈值,得到 anchor匹配的分类结果;最后根据anchor匹配的分类结果得到网络输出的分类标签;
步骤3:使用步骤1的网络输出和步骤2得到的分类标签,采用focal loss 替换SFD分类任务的标准交叉熵cross entropy loss,用于缓解网络的样本不平衡问题,通过迭代训练得到最终的网络模型。
进一步的,所述步骤1具体包括以下步骤:
1.1将目标图像输入到SFD网络,如图1所示,SFD以VGG16作为基础框架,保留conv1_1到pool5的网络层,将全连接层fc6、fc7转换为卷积层,并在其后增加四个卷积层。网络将选择尺度不同的六个特征层conv3_3、conv4_3、 conv5_3、fc_7、conv6_2和conv7_2作为检测层,其中浅层特征用于检测小尺度人脸,深层特征用于检测大尺度人脸。
1.2考虑到过大的感受野会引入噪声,本发明从特征fc_7开始构造特征金字塔。为了增强特征金字塔的语义信息,本发明设计了一个语义聚集模块。在特征融合之前,先将fc_7输入到语义聚集模块中进行运算,得到语义特征 context_fc7;具体包括:
1)将输入特征fc_7进行1×1卷积运算减少通道数,得到通道特征;
2)将通道特征进行1×n和n×1的卷积运算减少特征参数,得到精简特征;
3)将精简特征进行空洞卷积运算,扩大特征感受野,得到语义信息特征;
4)将语义信息特征进行拼接操作,得到和输入特征fc_7相同维度的语义权重特征;
5)将语义权重特征和输入特征conv_fc_7进行n×n的卷积运算,确保特征的判别性,得到上下分支权重特征;
1)将上下分支权重特征以点积方式融合从而增强了输入特征的语义信息,得到了语义特征context_fc7。
1.3特征金字塔原有融合方式是对深层特征进行降维、然后上采样和浅层特征基于元素相加。但在降维过程中会造成信息信息损失,为了缓解这个问题,本发明在相邻特征融合之前,对含有丰富语义信息的特征进行全局平均池化处理来减少融合过程中的语义信息损失,如图3所示。
1.4将语义特征context_fc7和浅层特征(conv3_3,conv4_3和conv5_3)按照特征金字塔的特征融合方式,以自上而下的路径(top-down way)和横向连接(lateralconnection)进行融合,增强了输出特征的语义信息,得到了语义特征金字塔网络的浅层输出特征。然后以自下而上方式,在context_fc7上增加额外的四个卷积层得到语义特征金字塔网络的深层特征conv6_2、conv7_2,从而构建出语义特征金字塔网络。
进一步的,所述步骤2具体包括:
2.1使用步骤1中构建的网络进行训练,得到网络输出;
2.2将网络输出的anchor与ground truth中心点距离和iou结合作为候选样本分类指标,用scoreiou∪dis来表示;
2.3按尺度为每个anchor分类,同一尺度中与对应人脸scoreiou∪dis的最大n 个anchor作为候选样本;
2.4计算所有候选样本的iou均值和方差之和作为动态阈值;候选样本的iou 大于阈值的分类为正样本,其余网络输出样本均分类为负样本。
进一步的,所述步骤2.2结合网络输出的anchor与目标图像中人脸的中心点距离,改进通用的度量指标iou得到度量指标scoreiou∪dis,具体包括:
1)网络输出的anchor具有统一格式,由anchor的中心点坐标(cx,cy)和 anchor宽度和长度(w,h)构成,表示为(cxanchor,cyanchor,wanchor,hanchor),而目标图像中的人脸的表达形式为人脸框的左上角(x1gt,y1gt)和右下角(x2gt,y2gt)坐标,将目标图像中anchor的表达形式转换为人脸框的格式,其计算方式如下:
x1anchor=cxanchor-wanchor/2
y1anchor=cyanchor-hanchor/2
x2anchor=cxanchor+wanchor/2
y2anchor=cyanchor+hanchor/2
2)计算目标图像中人脸和锚框的交并比iou(IntersectionoverUnion),其计算方式如下:
U=(x2gt-x1gt)*(y2gt-y1gt)+(x2anchor-x1anchor)*(y2anchor-y1anchor)-I
I=(min(x2gt-x2anchor)-max(x1gt-x1anchor))*(min(y2gt-y2anchor)-max(y1gt-y1anchor))
Iou=I/U
3)计算目标图像中人脸和锚框的中心点距离,用dis表示,其计算方式如下:为了便于计算,首先将人脸框转换为锚框的格式,由中心点和长宽表示,(cxgt,, cygt,wgt,hgt),其中:
cxgt=(x1anchor+x2anchor)/2
cygt=(y1anchor+y2anchor)/2
wgt=x2anchor-x1anchor
hgt=y2anchor-y1anchor
然后计算人脸框和锚框的中心点距离:
Figure BDA0002650805910000051
4)计算dis在anchor中占有的比例,然后iou减去该比例得到scoreiou∪dis:
scoreiou∪dis=iou-dis/wanchor
2)计算dis在anchor中占有的比例,然后iou减去该比例得到scoreiou∪dis
进一步的,所述步骤3具体包括:
3.1根据步骤1和步骤2得到网络输出的分类和回归正负样本;
3.2对分类样本使用focal loss得到分类任务损失,对回归任务使用SmoothL1 得到回归损失;
3.3使用随机梯度下降方法更新深度神经网络模型参数,得到训练好的模型;
3.4判断深度神经网络模型是否达到收敛条件,如果不是,回到第2.1步;如果是,结束训练,获得训练好的深度神经网络模型。
本发明的优点及有益效果如下:
1.大量研究成果表明语义信息对检测小人脸至关重要。不同于现阶段性能比较好的人脸检测器Pyramid Box、DSFD、SRN等,通过为每个尺度特征增加额外的特征提取模块来增强输出特征的语义信息,极大的增加了训练成本以及网络复杂性。本发明提出了一个语义特征金字塔,通过增强深层特征的语义信息,再以特征金字塔的特征融合方式来增加浅层特征的语义信息。同时为了减少特征融合过程中降维带来的信息损失,本发明采用全局平均池化操作处理含有丰富语义信息的特征,减少了融合过程中的信息损失,提高了融合特征的表达能力。
2.anchor的分配方式影响着检测器的性能。最新研究HAMBox:Delving intoOnline High-quality Anchors Mining for Detecting OuterFaces表明一些低于iou阈值的anchor在网络学习过程中也能习得较高的回归能力。因此本发明提出了一个尺度自适应匹配算法。不同于其他基于anchor的方法,基于固定iou阈值分类,导致iou得分较低但在网络回归中能习得很强回归能力的anchor被错误分类,以及通过降低固定iou阈值来提高小人脸召回率,引入了大量的低质量 anchor。本发明采用动态阈值进行尺度自适应匹配,有效的提高了anchor匹配分类的质量,并显著提升了小人脸的召回率。
3.为了提高小人脸检测性能,现有单阶段检测器通过铺设大量anchor来匹配人脸,造成了极度的正负样本不平衡。本发明的主干网络通过标准交叉熵、进行分类损失计算,忽略了样本不平衡问题。本发明采用Focal loss替换基础网络分类损失函数标准交叉熵,通过对大量负样本以及易分类样本施以权重惩罚,降低其对网络的影响,达到样本平衡的目的,最终提升了检测器的性能。
附图说明
图1是本发明提供优选实施例的基础框架SFD网络模型结构示意图。
图2为本发明的深度学习人脸检测模型结构示意图。
图3为本发明的语义特征金字塔网络融合特征方式。
图4为本发明的尺度自适应匹配算法。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。
本发明解决上述技术问题的技术方案是:
本发明实施例基于SFD人脸检测框架为基本框架,详见文献Zhang S, Zhu X,LeiZ,et al.S3FD:Single Shot Scale-invariant Face Detector[C]// InternationalConference on Computer Vision(ICCV).2017。首先通过SFD网络和语义聚集模块构建出语义特征金字塔网络,然后对网络输出进行动态尺度匹配,最后替换分类任务的标准交叉熵损失采用平衡交叉熵focal loss 用于样本平衡。
图1是本发明实施例提供的语义特征金字塔网络结构图,包括如下步骤:
步骤1.将目标图像输入到SFD网络得到用于构建特征金字塔的输入特征;将设计的语义聚集模块插入特征金字塔顶层来增强特征金字塔的语义信息;然后融合相邻尺度的特征,构造语义特征金字塔。
如图2所示,SFD是一种多尺度人脸检测方法,不同深度下的特征具有不同尺度。SFD输入检测器用于分类和检测框回归任务的特征分别有:conv3_3、 conv4_3、conv5_3层和额外添加的fc_7、conv6_2、conv7_2层。由于深层特征的过大感受野会引入噪声,所以本发明构建语义特征金字塔从fc_7开始。首先将其输入到语义聚集模块得到语义特征context_fc_7,与相邻特征融合后得到含有语义信息的融合特征fuse_conv5_3、fuse_conv4_3、fuse_conv3_3作为浅层输出特征,然后以自下而上路径在context_fc_7后增加额外的四个卷积层提取 conv6_2、conv7_2作为深层输出特征。
本发明构建语义特征金字塔从fc_7开始,将其输入到语义聚集模块,具体步骤如下:
1.1将输入特征fc_7进行1×1卷积运算减少通道数,得到通道特征;
1.2将通道特征进行1×n,n×1的卷积运算减少特征参数,得到精简特征;
1.3将精简特征进行空洞卷积运算,扩大特征感受野,得到语义特征;
1.4将语义特征通过拼接操作,得到与输入特征fc_7相同维度的语义权重特征;
1.5将语义权重特征和输入特征fc_7进行n×n卷积运算,确保特征的判别性,得到语义聚集模块的上下分支权重特征。
1.6将上下分支权重特征以点积方式融合从而增强了输入特征的语义信息,得到了语义特征context_fc7。
在语义特征context_fc7与conv5_3、conv4_3、conv3_3特征层融合过程中,为了减少特征融合中降维操作带来的信息损失,对增强了语义信息的顶层特征以及后续的融合特征进行全局平均池化处理。然后以构造LFPN(Tang X,Du D K,He Z,et al.PyramidBox:AContext-assisted Single Shot Face Detector[J].2018.) 的融合方式得到融合特征fuse_conv5_3、fuse_conv4_3、fuse_conv3_3。详细融合方式见文献,本发明不再赘述文献。
步骤2.使用步骤1中构建的网络进行训练,得到网络输出。为了减少主干网络采用固定阈值进行anchor匹配产生的错误分类样本数量并提高小人脸的召回率,本发明采用尺度自适应匹配算法进行anchor匹配从而得到样本分类标签。首先将网络输出的anchor与ground truth的中心点距离和iou结合作为候选样本分类指标,按尺度为每张人脸挑选候选样本,扩大候选样本的范围。然后计算候选样本iou的均值和方差之和作为动态阈值,得到anchor匹配的分类结果。最后根据anchor匹配的分类结果得到网络输出的分类标签。具体步骤如下:
2.1人脸检测网络输入的ground truth和输出的anchor具有固定格式;每个人脸的ground truth由x1,y1,x2和y2表示,其中(x1gt,y1gt)和(x2gt,y2gt)分别表示框的左上角和右下角坐标;anchor由cx,cy,w和h表示,其中(cxanchor, cyanchor)和(wanchor,hanchor)分别表示anchor的中心点坐标和anchor宽度和长度。
将anchor通过计算转换为和预测框统一的格式,其计算方式如下:
x1anchor=cxanchor-wanchor/2
y1anchor=cyanchor-hanchor/2
x2anchor=cxanchor+wanchor/2
y2anchor=cyanchor+hanchor/2
将转换的anchor(x1anchor,y1anchor,x2anchor,y2anchor)和每个人脸的ground truth进行重合度计算。重复度Iou计算公式为:
U=(x2gt-x1gt)*(y2gt-y1gt)+(x2anchor-x1anchor)*(y2anchor-y1anchor)-I
I=(min(x2gt-x2anchor)-max(x1gt-x1anchor))*(min(y2gt-y2anchor)-max(y1gt-y1anchor))
Iou=I/U
将ground truth通过计算转换为和anchor的统一格式,其计算方式如下:
cxgt=(x1anchor+x2anchor)/2
cygt=(y1anchor+y2anchor)/2
wgt=x2anchor-x1anchor
hgt=y2anchor-y1anchor
将转换的groundtruth(cxgt,,cygt,wgt,hgt)和anchor(cxanchor,cyanchor,wanchor,hanchor)进行iou∪dis分数计算。scoreiou∪dis计算公式为:
Figure BDA0002650805910000091
2.2因为anchor和预测框中心点距离与他们的重合度成负相关,所以候选样本分类度量指标设为:
scoreiou∪dis=Iou-dis/wanchor
2.3S3FD预测的anchor具有六个尺度,分别为{16,32,64,128,256, 512}。根据步骤2.2中计算的scoreiou∪dis取每个尺度前n个scoreiou∪dis最大的值作为候选样本(proposal-positive),其余框均分类为负样本。
2.4计算这6×n个候选样本的iou均值和方差之和作为动态阈值threshold, 6×n个候选样本中iou≧threshold分类为正样本,其余分类为负样本,从而得到分类标签。
步骤3:使用步骤1的网络输出和步骤2得到的分类标签,采用focalloss 用于分类任务进行样本平衡,通过迭代训练得到训练好的模型。具体如下:
3.1网络除了输出预测框,同时还会输出每个预测框的分类置信分数classification-confidence,取值在0~1之间。得分越高表明网络对该检测框的预测结果越准确。使用步骤2.3中所有anchor的分类标签label对 classification-confidence进行分类,label>0为正样本,其余为负样本。使用focal loss对置信分数正负样本进行样本平衡的分类损失Lc计算,计算公式如下:
Lc=-α(1-yp)βlog yp,其中α=0.25,β=2
3.2使用SmoothLL1作为回归损失Ll,计算公式如下:
Ll=F.smooth_l1_loss(ground truth,predict box)
其中ground truth和predict box分别为人脸真实坐标(x1 gt,,y1gt,x2gt,y2gt)和预测坐标(x1 pt,y1pt,x2 pt,y2pt)。
3.3在训练过程中根据分类损失和预测损失使用随机梯度下降方法更新网络参数,最终得到训练好的模型。
本发明通过一种语义特征金字塔的网络提取特征,增强了小人脸检测所需的语义信息,然后在网络预测之后采用尺度自适应匹配算法进行anchor匹配和样本分类,减少了错误分类样本,提高了小人脸的召回率,并在网络损失计算中采用focal loss替换主干网络的标准交叉熵损失,有效的缓解了检测器的样本不平衡问题。和其他深度学习的人脸检测方法相比,本发明在增加少量计算量的情况下,有效的提高了小人脸检测的性能,节约了网络计算成本和内存消耗。

Claims (4)

1.一种基于语义特征金字塔的小人脸检测方法,其特征在于,包括以下步骤:
步骤1:将目标图像输入到单目尺度不变人脸检测器SFD网络得到用于构建语义特征金字塔网络的输入特征;在特征融合之前,将设计的语义聚集模块插入特征金字塔顶层增强其语义信息;在特征融合过程,为了减少特征金字塔网络FPN特征融合中降维操作带来的信息损失,先对增强了语义信息的顶层特征以及后续的融合特征进行全局平均池化处理,并以FPN横向连接方式和自上而下路径进行特征融合,从而得到语义特征金字塔网络的浅层特征;然后通过自下而上路径,在增强语义信息的顶层特征上增加额外的卷积层,得到语义特征金字塔网络的深层特征,最终得到了含有丰富语义信息的语义特征金字塔网络;
步骤2:使用步骤1中构建的语义特征金字塔网络进行训练,得到网络预测输出;网络预测输出包括回归的锚框anchor和分类置信分数;为了减少主干网络采用固定阈值进行anchor匹配产生的错误分类样本数量并提高小人脸的召回率,采用尺度自适应匹配算法进行anchor匹配从而得到样本分类标签;首先将网络输出的锚框与真实框中心点距离和交并比iou结合作为候选样本分类指标,按尺度为每个人脸分类候选样本,然后计算候选样本iou的均值和方差之和作为阈值,得到anchor匹配的分类结果;最后根据anchor匹配的分类结果得到网络输出的分类标签;
步骤3:使用步骤1的网络输出和步骤2得到的分类标签,采用平衡交叉熵损失focalloss替换SFD分类任务的标准交叉熵,用于缓解网络中样本不平衡问题,通过迭代训练得到最终的网络模型;
所述步骤1具体包括以下步骤:
1.1将目标图像输入到SFD网络,SFD以VGG16作为基础框架,保留conv1_1到pool5的网络层,将全连接层fc6、fc7转换为卷积层,并在其后增加四个卷积层;网络将选择尺度不同的六个特征层conv3_3、conv4_3、conv5_3、fc_7、conv6_2和conv7_2作为检测层,其中浅层特征用于检测小尺度人脸,深层特征用于检测大尺度人脸;
1.2考虑到过大的感受野会引入噪声,从特征fc_7开始自上而下融合构造特征金字塔网络;为了增强特征金字塔的语义信息,设计了一个语义聚集模块;在特征融合之前,先将fc_7输入到语义聚集模块中进行运算,得到语义特征context_fc7,然后进行特征融合;
1.3特征金字塔原有融合方式是对深层特征进行降维、然后上采样和浅层特征基于元素相加;但在降维过程中会造成信息损失;为了缓解这个问题,在相邻特征融合过程中,对context_fc7以及后续的融合特征进行全局平均池化处理来减少融合过程中的语义信息损失;
1.4将语义特征context_fc7和浅层特征conv3_3、conv4_3和conv5_3以自上而下的路径和横向连接进行融合,增强了输出特征的语义信息,从而得到语义特征金字塔网络的浅层特征;然后以自下而上方式,在context_fc7上增加额外的四个卷积层得到语义特征金字塔网络的深层特征conv6_2、conv7_2,从而构建出语义特征金字塔网络;
所述步骤1.2将深层最大尺度特征fc_7输入到所述的语义聚集模块中进行运算,具体包括:
1)将输入特征fc_7进行1×1卷积运算减少通道数,得到通道特征;
2)将通道特征进行1×n,n×1的卷积运算减少特征参数,得到精简特征;
3)将精简特征进行空洞卷积运算,扩大特征感受野,得到语义信息特征;
4)将语义信息特征进行拼接操作,得到和输入特征fc_7相同维度的语义权重特征;
5)将语义权重特征和输入特征fc_7进行n×n的卷积运算,确保特征的判别性,得到上下分支权重特征;
将上下分支权重特征以点积方式融合从而增强了输入特征的语义信息,得到了语义特征context_fc7。
2.根据权利要求1所述的一种基于语义特征金字塔的小人脸检测方法,其特征在于,所述步骤2具体包括:
2.1使用步骤1中构建的网络进行训练,得到网络输出;
2.2将网络输出的anchor与ground truth中心点距离和iou结合作为候选样本分类指标,用scoreiou∪dis来表示;
2.3按尺度为每个人脸挑选候选样本,为对应人脸从每个尺度中挑选前n个scoreiou∪dis最大的anchor作为候选样本;
2.4计算所有候选样本的iou均值和方差之和作为动态阈值;候选样本的iou大于阈值分类为正样本,其余网络输出样本均分类为负样本。
3.根据权利要求2所述的一种基于语义特征金字塔的小人脸检测方法,其特征在于,所述步骤2.2将网络输出的anchor与ground truth中心点距离和iou结合作为候选样本分类指标,用scoreiou∪dis表示,具体包括:
1)网络输出的anchor具有统一格式,由anchor的中心点坐标(cx,cy)和anchor宽度和长度(w,h)构成,表示为(cxanchor,cyanchor,wanchor,hanchor),而目标图像中的人脸的表达形式为人脸框的左上角(x1gt,y1gt)和右下角(x2gt,y2gt)坐标,将目标图像中anchor的表达形式转换为人脸框的格式,其计算方式如下:
x1anchor=cxanchor-wanchor/2
y1anchor=cyanchor-hanchor/2
x2anchor=cxanchor+wanchor/2
y2anchor=cyanchor+hanchor/2
2)计算目标图像中人脸和锚框的交并比iou,根据计算得到的x1anchor、y1anchor、x2anchor、y2anchor以及(cxanchor,cyanchor,wanchor,hanchor)计算得到人脸和锚框的交并比iou;
3)计算目标图像中人脸和锚框的中心点距离,用dis表示,其计算方式如下:为了便于计算,首先将人脸框转换为锚框的格式,由中心点和长宽表示,(cxgt,cygt,wgt,hgt),其中:
cxgt=(x1anchor+x2anchor)/2
cygt=(y1anchor+y2anchor)/2
wgt=x2anchor-x1anchor
hgt=y2anchor-y1anchor
然后计算人脸框和锚框的中心点距离:
Figure FDA0003747422960000041
4)计算dis在anchor中占有的比例,然后iou减去该比例得到scoreiou∪dis:
scoreiou∪dis=iou-dis/wanchor
4.根据权利要求3所述的一种基于语义特征金字塔的小人脸检测方法,其特征在于,所述步骤3具体包括:
3.1根据步骤1和步骤2得到网络输出的分类和回归正负样本;
3.2对分类样本使用平衡交叉熵损失focal loss得到分类任务损失,对回归任务使用SmoothL1损失得到回归损失;
3.3使用随机梯度下降方法更新深度神经网络模型参数,得到训练好的模型;
3.4判断深度神经网络模型是否达到收敛条件,如果不是,回到第2.1步;如果是,结束训练,获得训练好的深度神经网络模型。
CN202010870140.XA 2020-08-26 2020-08-26 一种基于语义特征金字塔网络的小人脸检测方法 Active CN111950515B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010870140.XA CN111950515B (zh) 2020-08-26 2020-08-26 一种基于语义特征金字塔网络的小人脸检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010870140.XA CN111950515B (zh) 2020-08-26 2020-08-26 一种基于语义特征金字塔网络的小人脸检测方法

Publications (2)

Publication Number Publication Date
CN111950515A CN111950515A (zh) 2020-11-17
CN111950515B true CN111950515B (zh) 2022-10-18

Family

ID=73366403

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010870140.XA Active CN111950515B (zh) 2020-08-26 2020-08-26 一种基于语义特征金字塔网络的小人脸检测方法

Country Status (1)

Country Link
CN (1) CN111950515B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112633077B (zh) * 2020-12-02 2024-05-24 特斯联科技集团有限公司 一种基于层内多尺度特征增强的人脸检测方法、系统、存储介质及终端
CN112597909A (zh) * 2020-12-25 2021-04-02 北京芯翌智能信息技术有限公司 一种用于人脸图片质量评价的方法与设备
CN112598089B (zh) * 2021-03-04 2021-06-25 腾讯科技(深圳)有限公司 图像样本的筛选方法、装置、设备及介质
CN113158862B (zh) * 2021-04-13 2023-08-22 哈尔滨工业大学(深圳) 一种基于多任务的轻量级实时人脸检测方法
CN113282718B (zh) * 2021-07-26 2021-12-10 北京快鱼电子股份公司 一种基于自适应中心锚的语种识别方法及系统
CN114463812B (zh) * 2022-01-18 2024-03-26 赣南师范大学 基于双通道多分支融合特征蒸馏的低分辨率人脸识别方法
CN117197878B (zh) * 2023-11-07 2024-03-05 中影年年(北京)科技有限公司 基于机器学习的人物面部表情捕捉方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107871106A (zh) * 2016-09-26 2018-04-03 北京眼神科技有限公司 人脸检测方法和装置
CN109344821A (zh) * 2018-08-30 2019-02-15 西安电子科技大学 基于特征融合和深度学习的小目标检测方法
CN109509192A (zh) * 2018-10-18 2019-03-22 天津大学 融合多尺度特征空间与语义空间的语义分割网络
CN110909778A (zh) * 2019-11-12 2020-03-24 北京航空航天大学 一种基于几何一致性的图像语义特征匹配方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE602005012672D1 (de) * 2005-02-21 2009-03-26 Mitsubishi Electric Corp Verfahren zum Detektieren von Gesichtsmerkmalen
WO2018218286A1 (en) * 2017-05-29 2018-12-06 Saltor Pty Ltd Method and system for abnormality detection
CN108664916A (zh) * 2018-05-08 2018-10-16 深圳市唯特视科技有限公司 一种基于锚点设计的小面孔检测方法
CN108647668A (zh) * 2018-05-21 2018-10-12 北京亮亮视野科技有限公司 多尺度轻量级人脸检测模型的构建方法及基于该模型的人脸检测方法
CN109165629B (zh) * 2018-09-13 2019-08-23 百度在线网络技术(北京)有限公司 多焦距视觉障碍物感知方法、装置、设备及存储介质
CN109614985B (zh) * 2018-11-06 2023-06-20 华南理工大学 一种基于密集连接特征金字塔网络的目标检测方法
CN110197113B (zh) * 2019-03-28 2021-06-04 杰创智能科技股份有限公司 一种高精度锚点匹配策略的人脸检测方法
CN110472588B (zh) * 2019-08-19 2020-11-24 上海眼控科技股份有限公司 锚点框确定方法、装置、计算机设备和存储介质
CN111186379B (zh) * 2020-01-21 2021-12-03 武汉大学 一种基于深度学习的汽车盲区危险物报警方法
CN111462090B (zh) * 2020-04-01 2023-09-01 上饶市中科院云计算中心大数据研究院 一种多尺度图像目标检测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107871106A (zh) * 2016-09-26 2018-04-03 北京眼神科技有限公司 人脸检测方法和装置
CN109344821A (zh) * 2018-08-30 2019-02-15 西安电子科技大学 基于特征融合和深度学习的小目标检测方法
CN109509192A (zh) * 2018-10-18 2019-03-22 天津大学 融合多尺度特征空间与语义空间的语义分割网络
CN110909778A (zh) * 2019-11-12 2020-03-24 北京航空航天大学 一种基于几何一致性的图像语义特征匹配方法

Also Published As

Publication number Publication date
CN111950515A (zh) 2020-11-17

Similar Documents

Publication Publication Date Title
CN111950515B (zh) 一种基于语义特征金字塔网络的小人脸检测方法
CN109949317B (zh) 基于逐步对抗学习的半监督图像实例分割方法
CN111126482B (zh) 一种基于多分类器级联模型的遥感影像自动分类方法
CN112150821B (zh) 轻量化车辆检测模型构建方法、系统及装置
CN110852288B (zh) 一种基于两阶段卷积神经网络的细胞图像分类方法
CN111177446A (zh) 一种用于足迹图像检索的方法
CN107683469A (zh) 一种基于深度学习的产品分类方法及装置
CN109903339B (zh) 一种基于多维融合特征的视频群体人物定位检测方法
CN108960142B (zh) 基于全局特征损失函数的行人再识别方法
CN114255403A (zh) 基于深度学习的光学遥感图像数据处理方法及系统
CN116012722A (zh) 一种遥感影像场景分类方法
CN112381030A (zh) 一种基于特征融合的卫星光学遥感图像目标检测方法
CN114882599A (zh) 基于双分支神经网络的离线手写签名分割系统和方法
CN115410078A (zh) 一种低质量水下图像鱼类目标检测方法
CN110647897B (zh) 一种基于多部分注意力机制的零样本图像分类识别方法
CN111222534A (zh) 一种基于双向特征融合和更平衡l1损失的单发多框检测器优化方法
CN114170526A (zh) 基于轻量化网络的遥感影像多尺度目标检测识别方法
CN113688821A (zh) 一种基于深度学习的ocr文字识别方法
CN111199199B (zh) 一种基于自适应上下文区域选取的动作识别方法
CN116630301A (zh) 基于超分辨率和YOLOv8的带钢表面小目标缺陷检测方法及系统
CN117516937A (zh) 基于多模态特征融合增强的滚动轴承未知故障检测方法
CN110717068B (zh) 一种基于深度学习的视频检索方法
CN114998304B (zh) 自冲铆成形质量的检测方法、装置、电子设备及存储介质
CN112818818B (zh) 一种基于affpn的新型超高清遥感图像变化检测方法
CN114328174A (zh) 一种基于对抗学习的多视图软件缺陷预测方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant