CN116543432A - 一种基于辅助网络的高效人脸检测方法 - Google Patents
一种基于辅助网络的高效人脸检测方法 Download PDFInfo
- Publication number
- CN116543432A CN116543432A CN202310401719.5A CN202310401719A CN116543432A CN 116543432 A CN116543432 A CN 116543432A CN 202310401719 A CN202310401719 A CN 202310401719A CN 116543432 A CN116543432 A CN 116543432A
- Authority
- CN
- China
- Prior art keywords
- convolution
- loss
- face detection
- face
- detection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 81
- 238000012549 training Methods 0.000 claims abstract description 23
- 238000000034 method Methods 0.000 claims abstract description 18
- 238000004364 calculation method Methods 0.000 claims description 8
- 210000003128 head Anatomy 0.000 claims description 8
- 210000000887 face Anatomy 0.000 claims description 6
- 235000019580 granularity Nutrition 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 2
- 230000001502 supplementing effect Effects 0.000 claims description 2
- 238000007781 pre-processing Methods 0.000 abstract description 3
- 238000004904 shortening Methods 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
- G06V40/165—Detection; Localisation; Normalisation using facial parts and geometric relationships
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Human Computer Interaction (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Geometry (AREA)
- Image Analysis (AREA)
Abstract
本发明属于计算机视觉人脸检测技术领域,提供了一种基于辅助网络的高效人脸检测方法,人脸检测方法包括骨干网络模块、图像分类分支、人脸检测分支和多任务损失四个部分,具体方法步骤包括:通过预标注与人工矫正获得训练样本、利用结构重参数化解耦训练与推理结构,获得高效的推理权重;FH‑EFACE秉持轻量高效原则搭建网络,利用图像分类分支作为辅助,过滤无人脸图片,既能降低部署时的硬件要求,同时在推理阶段,输入图片只需要一次预处理与模型推理操作,极大缩短了整体推理时间。
Description
技术领域
本发明属于计算机视觉人脸检测技术领域,更具体地说,提出了一种全新的基于辅助网络的人脸检测的训练和测试方法,通过共享骨干网络与多任务分支实现对图像分类和人脸检测任务进行同时训练和测试。
背景技术
人脸检测技术作为人脸识别、跟踪等任务不可缺少的前置步骤,其与通用目标检测的不同之处在与,人脸检测不仅要对图片中的人脸进行精准定位,还需要为后续任务提供人脸关键点信息,用于人脸对齐。
通常人脸检测算法包含特征提取模块和检测模块,特征提取模块负责提取对检测有用的特征,其中浅层特征包含细节信息更多,而深层特征包含高级语义信息更多;所以检测模块通常会加入多尺度特征融合,将深层特征中的高级语义传递给浅层特征;由于人脸尺度的多样性,检测通常采用不同层次特征,浅层特征检测小尺度人脸,深层特征检测大尺度人脸,经典人脸检测算法,比如retinaface,yolov5face均是采用此框架。
随着互联网,特别是移动互联网的高速发展,每天产生着海量多样化图片,给公安机关对于重点人的监控带来了极大的挑战,当前通常的处理方式是先利用图片分类初步筛选出有人脸图片,然后输送给人脸相关模型处理;
目前的人脸检测模型虽然能够实现对照片上的人脸进行识别,但是仍存在较多问题:
(1)在利用图片分类模型初筛过程中,人脸检测模型检测的方法,需要部署两个模型,导致硬件资源消耗,进而造成检测成本升高;
(2)其次图片处理时,每张图片都需要先后通过一次图片分类推理与一次人脸检测推理,导致检测模型响应时间长,造成人脸检测效率低,面对海量的照片,检测过程十分费时费力。
发明内容
为了解决上述技术问题,本发明提供一种基于辅助网络的高效人脸检测方法,通过基于辅助网络的高效人脸检测方法FH-EFACE,FH-EFACE秉持轻量高效原则搭建网络,利用图片分类分支作为辅助,过滤无人脸图片,既能减低部署时的硬件要求,同时在推理阶段,输入图片只需要一次预处理与模型推理操作,大大减少了响应时间,进而解决目前人脸检测模型检测成本高以及效率低等问题。
本发明具体的技术方案如下:
一种基于辅助网络的高效人脸检测方法,人脸检测方法包括骨干网络模块、图像分类分支、人脸检测分支和多任务损失四个部分,具体方法步骤如下:
S1:收集图片获取训练样本,首先搜集互联网上的图片,利用公开的人脸检测模型进行预打标,然后根据图片上有无人脸补充分类标签,进而得到训练标本;
S2:训练FH-EFACE模型,FH-EFACE损失函数由图像分类损失与目标检测损失组成,通过损失网络进行训练,得到训练好的FH-EFACE初始权重;
S3:获取推理时权重,通过模型结构重参数化,合并RepBlock块的多分支结构,得到与初始权重等效的推理时权重;
S4:人脸检测,加载FH-EFACE推理时权重,对模型进行初始化操作,然后将处理好的图片输入到模型中进行检测,并获取人脸检测结果。
优选的,步骤S1中,图片为RGB格式,并将图片同比例resize到长边为448大小,并对图片进行归一化操作。
优选的,步骤S2中,FH-EFACE模型由骨干网络、检测分支和分类分支三部分构成。
优选的,所述骨干网络负责提取图像语义特征,由stem块与RepBlock块组成;
检测分支包含Neck部分与Head部分,Neck部分对提取的不同粒度语义特征进行融合,Head部分进行编码预测人脸的位置与五个关键点,五个关键点包括左右眼睛、鼻尖和左右嘴角;
分类分支用于判断输入图片是否存在人脸,骨干网络提取的特征,经过1×1卷积特征融合,然后经过平均池化层与flatten操作,降低特征维度,最后接全连接层分类头。
优选的,步骤S2中,图像分类损失中,图像分类仅做有/无人脸的二分类,采用二值交叉熵损失,假设输入为xi,其中p(xi)为GT,q(xi)为预测有人脸的概率,计算公式如下:LBCE(xi)=-p(xi)lnq(xi)-(1-p(xi))ln(1-q(xi))。
优选的,所述目标检测损失细分为三个部分,分别为目标置信度损失、定位损失、关键点损失。
优选的,所述置信度损失是通过计算预测特征点是否存在人脸的置信度误差,其采用二值交叉熵损失;
所述定位损失为预测框与标定框之间的误差,记作Lloc,具体损失采用CloU损失,CloU loss考虑两个框的重叠面积、中心点距离、长宽比一致性多重因素;
假设两个矩形框A、B,ρ是A、B框中心点欧式距离,c是A、B框最小外接矩形对角线距离,v是衡量A、B框长宽比一致性,α为权重,计算公式如下:
所述关键点损失是采用人脸关键点检测算法中经典的Wing loss,计算公式如下:
C=w-wln(1+w/∈)
w用于约束非线性部分的取值范围在[-w,w]内,∈约束非线性区域的曲率,C是一个常数,用于连接线性与分线性部分;
FH-EFACE整体损失函数:
其中,Ipre为图片分类输出预测概率,Igt为图片的真实分类,ppre、bpre、It pre分别是检测分支输出的预测框是人脸的概率、预测框位置信息、关键点坐标,pgt、bgt、It gt为相应的GT信息;[λcls,λdetect]是维持分类与检测损失平衡的权重,初始值均为1,[αobj,αbox,αImark]是用于维持检测内部三个损失平衡的权重,权重值为[1.0,0.05,0.05],便于模型训练时的稳定与快速收敛;为符号函数,该cell存在人脸时,值为1,否则为0;ak balance用于平衡人脸检测分支K个预测特征层的损失差异,针对大、中、小目标预测特征层采用的权重分别为[0.4,1.0,4.0];
优选的,步骤S3中,FH-EFACE模型训练结束后,模型中RepBlock结构进行结构重参数化,其中3×3卷积分支进行卷积层与BN层合并,1×1卷积分支、ldentity分支分别转化为3×3卷积层,最终将3个分支合并为1个单路3×3卷积层。
优选的,所述卷积层与BN层合并,假定卷积权重为W,偏置为b,BN层平均值为mean,标准差为var,比例因子为γ,偏置为β,则卷积层公式为:
Conv(x)=W(x)+b
BN层公式为:
将卷积结果带入BN公式,为:
可形成一个新的合并后卷积公式,卷积权重为Wfused,偏置为Bfused:
BN(Conv(x))=Wfused(x)+Bfused
1×1卷积转化为3×3卷积,以1×1的卷积核为中心,周边补0,padding成3×3尺寸,即转化为等效的3×3卷积;
ldentity层转化为3×3卷积,其中ldentity层特点为输入直接等于输出层,卷积操作必须要将每个通道累加后进行输出,若要保证每个通道元素输入输出相等,只需将当前通道卷积核参数设置为1,其余的卷积核参数为0即可,即构造出一个以单位矩阵为卷积核的1x1卷积即可,将Identity层转换为1x1卷积后,在通过上述方法继续转换为3x3的卷积。
与现有技术相比,本发明具有如下有益效果:
1、本发明通过FH-EFACE秉持轻量高效原则搭建网络,利用图片分类分支作为辅助,过滤无人脸图片,既能减低部署时的硬件要求,同时在推理阶段,输入图片只需要一次图片预处理与模型推理操作,进而实现了响应时间极大缩短,提升了人脸检测效率。
附图说明
图1是本发明FH-EFACE网络结构框图;
图2是本发明RepBlock块结构重参数化过程图;
图3是本发明FH-EFACE模型获取流程图;
图4是本发明FH-EFACE模型推理流程图。
具体实施方式
下面结合附图和实施例对本发明的实施方式作进一步详细描述。以下实施例用于说明本发明,但不能用来限制本发明的范围。
如图1-图4所示,本发明提供一种基于辅助网络的高效人脸检测方法,具体步骤包括两个部分,一是获得FH-EFACE模型,二是采用FH-EFACE模型进行人脸检测;
具体步骤如下:
第一步:如图3所示,获得FH-EFACE模型
1.1首先搜集互联网图片,利用公开人脸检测模型(比如retinaface、yolov5face)进行预打标,并根据是否有人脸添加有/无人脸图像的分类标签,得到训练样本;
1.2通过损失训练网络,得到训练好的FH-EFACE初始权重,具体的FH-EFACE损失函数由图像分类损失与目标检测损失组成,其中目标检测损失细分为三部分,分别为目标置信度损失、定位损失、关键点损失;
FH-EFACE整体损失函数:
其中,Ipre为图片分类输出预测概率,Igt为图片的真实分类,ppre、bpre、lt pre分别是检测分支输出的预测框是人脸的概率、预测框位置信息、关键点坐标,pgt、bgt、lt gt为相应的GT信息;[λcls,λdetect]是维持分类与检测损失平衡的权重,初始值均为1,[αobj,αbox,αlmark]是用于维持检测内部三个损失平衡的权重,权重值为[1.0,0.05,0.05],便于模型训练时的稳定与快速收敛;为符号函数,该cell存在人脸时,值为1,否则为0;ak balance用于平衡人脸检测分支K个预测特征层的损失差异,针对大、中、小目标预测特征层采用的权重分别为[0.4,1.0,4.0]。
1.3根据图2进行模型结构重参数化,合并骨干网络中的RepBlock的多分支结构,得到与训练模型等效的推理时网络权重;
其中FH-EFACE模型主要由骨干网络、检测分支、分类分支三部分构成,骨干网络负责提取图像语义特征;检测分支包含Neck部分与Head部分,Neck部分对提取的不同粒度语义特征进行融合,Head部分进行编码预测人脸的位置与五个(左右眼睛,鼻尖,左右嘴角)关键点;分类分支用于判断输入图片是否存在人脸。
从图1可看出,骨干网络由stem块与RepBlock块组成,下文分别对其介绍;
stem块由kernel为7×7,stride为2的Conv层,与kernel 3×3,stride为2的maxpooling层组成,通过对输入图片连续下采样操作,降低模型计算量。
RepBlock块源自RepVGG算法,其提出结构重参数化思想,在训练时使用多分支卷积结构,推理时将多分枝结构进行融合转换成单路3×3卷基层,采用完全恒等融合方式,既保留了模型训练的效果,又兼顾了推理速度,其具体转换过程如图2所示。
在模型训练时,网络结构如图2(a);其次,在训练结束后,经历一次结果重参数化过程,经过卷积层与BN层合并,然后将1×1卷积层,Identity层等效变换为3×3卷积层,得到图2(b),最后根据卷积的线性可加性,得到图2(c);至此模型推理仅需执行单个3×3卷积,大大提升了执行速度。
卷积层与BN层合并:假定卷积权重为W,偏置为b,BN层平均值为mean,标准差为var,比例因子为γ,偏置为β,则卷积层公式为
Conv(x)=W(x)+b
BN层公式为
将卷积结果带入BN公式,
可形成一个新的合并后卷积公式,卷积权重为Wfused,偏置为Bfused:
BN(Conv(x))=Wfused(x)+Bfused
1×1卷积转化为3×3卷积:以1×1的卷积核为中心,周边补0,padding成3×3尺寸,即转化为等效的3×3卷积。
Identity层转化为3×3卷积:Identity层特点为输入直接等于输出层。卷积操作必须要将每个通道累加后进行输出,若要保证每个通道元素输入输出相等,只需将当前通道卷积核参数设置为1,其余的卷积核参数为0即可,即构造出一个以单位矩阵为卷积核的1x1卷积即可;将Identity层转换为1x1卷积后,在通过上述方法转换为3x3的卷积。
第二步:如图4所示,基于FH-EFACE模型进行人脸检测
2.1加载FH-EFACE网络权重,对模型进行初始化操作;
2.2获取RGB图片,将图片同比例resize到长边为448大小,并对图片进行归一化操作;
2.3将处理好图片输入骨干网络,获得图片语义特征;
2.4将图片语义特征输入到图片分类分支,获得图片分类结果,如果预测为有人脸图片,则进入下一步骤,否则,输出结果;
2.5将图片语义特征输入到人脸检测分支,获得人脸检测结果。
本发明的实施例是为了示例和描述起见而给出的,而并不是无遗漏的或者将本发明限于所公开的形式,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。
Claims (9)
1.一种基于辅助网络的高效人脸检测方法,其特征在于,人脸检测方法包括骨干网络模块、图像分类分支、人脸检测分支和多任务损失四个部分,具体方法步骤如下:
S1:收集图片获取训练样本,首先搜集互联网上的图片,利用公开的人脸检测模型进行预打标,然后根据图片上有无人脸补充分类标签,进而得到训练样本;
S2:训练FH-EFACE模型,FH-EFACE损失函数由图像分类损失与目标检测损失组成,通过损失网络进行训练,得到训练好的FH-EFACE初始权重;
S3:获取推理时权重,通过模型结构重参数化,合并RepBlock块的多分支结构,得到与初始权重等效的推理时权重;
S4:人脸检测,加载FH-EFACE推理时权重,对模型进行初始化操作,然后将处理好的图片输入到模型中进行检测,并获取人脸检测结果。
2.如权利要求1所述基于辅助网络的高效人脸检测方法,其特征在于:步骤S1中,图片为RGB格式,并将图片同比例resize到长边为448大小,并对图片进行归一化操作。
3.如权利要求1所述基于辅助网络的高效人脸检测方法,其特征在于:步骤S2中,FH-EFACE模型由骨干网络、检测分支和分类分支三部分构成。
4.如权利要求3所述基于辅助网络的高效人脸检测方法,其特征在于:所述骨干网络负责提取图像语义特征,由stem块与RepBlock块组成;
检测分支包含Neck部分与Head部分,Neck部分对提取的不同粒度语义特征进行融合,Head部分进行编码预测人脸的位置与五个关键点,五个关键点包括左右眼睛、鼻尖和左右嘴角;
分类分支用于判断输入图片是否存在人脸,骨干网络提取的特征,经过1×1卷积特征融合,然后经过平均池化层与flatten操作,降低特征维度,最后接全连接层分类头。
5.如权利要求1所述基于辅助网络的高效人脸检测方法,其特征在于:步骤S2中,图像分类损失中,图像分类仅做有/无人脸的二分类,采用二值交叉熵损失,假设输入为xi,其中p(xi)为GT,q(xi)为预测有人脸的概率,计算公式如下:LBCE(xi)=-p(xi)lnq(xi)-(1-p(xi))ln(1-q(xi))。
6.如权利要求1所述基于辅助网络的高效人脸检测方法,其特征在于:所述目标检测损失细分为三个部分,分别为目标置信度损失、定位损失、关键点损失。
7.如权利要求6所述基于辅助网络的高效人脸检测方法,其特征在于:所述置信度损失是通过计算预测特征点是否存在人脸的置信度误差,其采用二值交叉熵损失;
所述定位损失为预测框与标定框之间的误差,记作Lloc,具体损失采用CIoU损失,CIoUloss考虑两个框的重叠面积、中心点距离、长宽比一致性多重因素;
假设两个矩形框A、B,ρ是A、B框中心点欧式距离,c是A、B框最小外接矩形对角线距离,ν是衡量A、B框长宽比一致性,α为权重,计算公式如下:
所述关键点损失是采用人脸关键点检测算法中经典的Wing loss,计算公式如下:
C=w-wln(1+w/∈)
w用于约束非线性部分的取值范围在[-w,w]内,∈约束非线性区域的曲率,C是一个常数,用于连接线性与分线性部分;
FH-EFACE整体损失函数:
其中,Ipre为图片分类输出预测概率,Igt为图片的真实分类,ppre、bpre、lt pre分别是检测分支输出的预测框是人脸的概率、预测框位置信息、关键点坐标,pgt、bgt、lt gt为相应的GT信息;[λcls,λdetect]是维持分类与检测损失平衡的权重,初始值均为1,[αobj,αbox,αlmark]是用于维持检测内部三个损失平衡的权重,权重值为[1.0,0.05,0.05],便于模型训练时的稳定与快速收敛;为符号函数,该cel l存在人脸时,值为1,否则为0;ak balance用于平衡人脸检测分支K个预测特征层的损失差异,针对大、中、小目标预测特征层采用的权重分别为[0.4,1.0,4.0]。
8.如权利要求1所述基于辅助网络的高效人脸检测方法,其特征在于:步骤S3中,FH-EFACE模型训练结束后,模型中RepBlock结构进行结构重参数化,其中3×3卷积分支进行卷积层与BN层合并,1×1卷积分支、Identity分支分别转化为3×3卷积层,最终将3个分支合并为1个单路3×3卷积层。
9.如权利要求8所述基于辅助网络的高效人脸检测方法,其特征在于:所述卷积层与BN层合并,假定卷积权重为W,偏置为b,BN层平均值为mean,标准差为var,比例因子为γ,偏置为β,则卷积层公式为:
Conv(x)=W(x)+b
BN层公式为:
将卷积结果带入BN公式,为:
可形成一个新的合并后卷积公式,卷积权重为Wfused,偏置为Bfused:
BN(Conv(x))=Wfused(x)+Bfused
1×1卷积转化为3×3卷积,以1×1的卷积核为中心,周边补0,padding成3×3尺寸,即转化为等效的3×3卷积;
Identity层转化为3×3卷积,其中Identity层特点为输入直接等于输出,卷积操作必须要将每个通道累加后进行输出,若要保证每个通道元素输入输出相等,只需将当前通道卷积核参数设置为1,其余的卷积核参数为0即可,即构造出一个以单位矩阵为卷积核的1x1卷积即可,将Identity层转换为1x1卷积后,在通过上述方法继续转换为3x3的卷积。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310401719.5A CN116543432A (zh) | 2023-04-16 | 2023-04-16 | 一种基于辅助网络的高效人脸检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310401719.5A CN116543432A (zh) | 2023-04-16 | 2023-04-16 | 一种基于辅助网络的高效人脸检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116543432A true CN116543432A (zh) | 2023-08-04 |
Family
ID=87442607
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310401719.5A Pending CN116543432A (zh) | 2023-04-16 | 2023-04-16 | 一种基于辅助网络的高效人脸检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116543432A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116758295A (zh) * | 2023-08-15 | 2023-09-15 | 摩尔线程智能科技(北京)有限责任公司 | 关键点检测方法及装置、电子设备和存储介质 |
-
2023
- 2023-04-16 CN CN202310401719.5A patent/CN116543432A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116758295A (zh) * | 2023-08-15 | 2023-09-15 | 摩尔线程智能科技(北京)有限责任公司 | 关键点检测方法及装置、电子设备和存储介质 |
CN116758295B (zh) * | 2023-08-15 | 2024-06-04 | 摩尔线程智能科技(北京)有限责任公司 | 关键点检测方法及装置、电子设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110097568B (zh) | 一种基于时空双分支网络的视频对象检测与分割方法 | |
Maltezos et al. | Building extraction from LiDAR data applying deep convolutional neural networks | |
WO2023005161A1 (zh) | 人脸图像相似度的计算方法、装置、设备及存储介质 | |
CN111898432B (zh) | 一种基于改进YOLOv3算法的行人检测系统及方法 | |
CN111680655A (zh) | 一种面向无人机航拍影像的视频目标检测方法 | |
Hu et al. | Graph neural network via edge convolution for hyperspectral image classification | |
CN113326735B (zh) | 一种基于YOLOv5的多模态小目标检测方法 | |
CN108090472A (zh) | 基于多通道一致性特征的行人重识别方法及其系统 | |
He et al. | Semi-supervised skin detection by network with mutual guidance | |
CN113139896A (zh) | 基于超分辨重建的目标检测系统及方法 | |
CN116543432A (zh) | 一种基于辅助网络的高效人脸检测方法 | |
İmamoğlu et al. | Salient object detection on hyperspectral images using features learned from unsupervised segmentation task | |
CN113259883A (zh) | 一种面向手机用户的多源信息融合的室内定位方法 | |
CN113128465A (zh) | 一种针对工业场景基于改进YOLOv4的小目标检测方法 | |
CN117612164B (zh) | 基于双重边缘检测的细胞分裂均衡度检测方法 | |
Dhandapani et al. | Multi-channel convolutional neural network for prediction of leaf disease and soil properties | |
Xie et al. | Mask wearing detection based on YOLOv5 target detection algorithm under COVID-19 | |
CN110796716B (zh) | 一种基于多重残差网络和正则化迁移学习的图像着色方法 | |
CN116883741A (zh) | 一种基于金字塔注意力机制的小样本虫害检测方法 | |
Shi | Object detection algorithms: a comparison | |
CN114580571B (zh) | 一种基于迁移互学习的小样本电力设备图像分类方法 | |
CN116681903A (zh) | 基于互补融合伪标签的弱监督显著性目标检测方法 | |
Wang et al. | AC-SNGAN: Multi-class data augmentation for damage detection of conveyor belt surface using improved ACGAN | |
CN113963150B (zh) | 一种基于多尺度孪生级联网络的行人重识别方法 | |
CN112200840B (zh) | 一种可见光和红外图像组合中的运动物体检测系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |