CN117115880A - 一种基于重参数化的轻量级人脸关键点检测的方法 - Google Patents
一种基于重参数化的轻量级人脸关键点检测的方法 Download PDFInfo
- Publication number
- CN117115880A CN117115880A CN202310917625.3A CN202310917625A CN117115880A CN 117115880 A CN117115880 A CN 117115880A CN 202310917625 A CN202310917625 A CN 202310917625A CN 117115880 A CN117115880 A CN 117115880A
- Authority
- CN
- China
- Prior art keywords
- parameterization
- neural network
- lightweight
- convolutional neural
- branch
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 30
- 238000012549 training Methods 0.000 claims abstract description 40
- 238000000034 method Methods 0.000 claims abstract description 24
- 238000004364 calculation method Methods 0.000 claims abstract description 5
- 238000003062 neural network model Methods 0.000 claims abstract description 3
- 238000013527 convolutional neural network Methods 0.000 claims description 37
- 238000011176 pooling Methods 0.000 claims description 13
- 239000013598 vector Substances 0.000 claims description 9
- 238000010606 normalization Methods 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 7
- 238000013519 translation Methods 0.000 claims description 7
- 238000012795 verification Methods 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 6
- 238000003491 array Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 3
- 238000012986 modification Methods 0.000 claims description 2
- 230000004048 modification Effects 0.000 claims description 2
- 238000007781 pre-processing Methods 0.000 claims description 2
- 238000000354 decomposition reaction Methods 0.000 claims 5
- 238000012935 Averaging Methods 0.000 claims 1
- 239000011159 matrix material Substances 0.000 claims 1
- 238000006467 substitution reaction Methods 0.000 claims 1
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000012423 maintenance Methods 0.000 abstract 1
- 230000006870 function Effects 0.000 description 12
- 230000004913 activation Effects 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000007786 learning performance Effects 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011897 real-time detection Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
- G06V40/171—Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0495—Quantised networks; Sparse networks; Compressed networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/776—Validation; Performance evaluation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Biodiversity & Conservation Biology (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明属于计算机视觉与人工智能领域,具体涉及一种利用重参数化的轻量级人脸关键点检测的方法,该方法包括:获取包含人脸的图像数据集,对人脸图像进行归一化,缩放至宽为112像素,高为112像素;将处理好的人脸图像传入重参数化之前的深度卷积神经网络模型进行训练;得到训练好的模型后按照规则进行重参数化以在不影响其准确度的情况下,减少模型的参数量,进而减少模型的计算量;基于重参数化的轻量级人脸关键点检测模型,分为训练阶段和推理阶段两个不同的结构,训练阶段设置多分支结构,在推理阶段,多分支结构合并为一条单通支路,减少参数量。本发明提出了一个基于重参数化的人脸关键点检测方法,利用多分支合并学习模块(MobileOne网络结构)与轻量级特征学习模块(RepGhostModule网络结构)的可重参数化的特性,针对人脸关键点检测领域设计了一个可以在不同算力层级的硬件设备上进行实时人脸关键点检测的网络,易于部署并减少维护成本。
Description
技术领域
本发明属于计算机视觉与人工智能领域,具体涉及一种利用重参数化的轻量级人脸关键点检测的方法。
背景技术
人脸关键点信息是指人类面部不同部分的定位信息,其在社会生活各领域都有着非常重要的作用,例如社会安全层面,包括人脸识别、身份安全验证;生活应用层面,包括驾驶疲劳度检测,美颜相机等。由此可见人脸关键点信息的用途繁多,且与居民的生活息息相关,不仅关乎个人,同时也关乎社会。在此基础上,对人脸关键点检测的实时性也有巨大的需求,例如驾驶疲劳度检测需要极高的实时性来规避高速驾驶中的一些危险。但由于不同地区的经济条件不平衡所带来的基础硬件设备以及设施的不完善,若要让不同计算能力的硬件设备都做到实时的人脸关键点检测,则需要对不同的设备都进行独特的优化,这将带来巨大的成本以及后续不断的大量投入。
因此,亟需一种能够一次开发,多处使用的兼具高性能和高准确率的人脸关键点检测方法。
传统的轻量级人脸关键点检测方法[1]常采用参数量较小的模块来构建深度卷积神经网络,从源头上控制神经网络的参数量,进而控制其计算量。较常用的轻量级模块有MobileNetV2,EfficientNet等,这类轻量级模块有着良好的特征学习性能,同时有较小的参数量,但较低的参数量也限制着模块的学习能力。为了弥补轻量级模块带来的精度损失,增加注意力机制[2]或者Transformer结构[3]是一种有效提高精度的方法,但是注意力机制与Transformer结构均需要在推理过程中预先对图像本身进行处理,而不是在进入推理阶段之前进行,这将带来更大的时间开销,在提升精确度后,也增加了计算量。重参数化的核心思想是,将一个结构在精度没有明显损失的情况下,重新塑造成另一个结构,减少参数量的同时也减少了计算量。具体的实施方法是,分别对训练阶段和推理阶段构建不同的深度卷积神经网络结构:在训练过程中使用高参数量的结构,充分学习特征,训练结束后在推理阶段将按照一定规则合并训练结构,将不同部分的参数合并到同一部分中,以此完成参数量的减少。在与传统轻量化方法相比,重参数化能够在保证准确度且不增加计算量的情况下使结构更轻量化[4]。
[1]黄泄合.基于深度学习的人脸关键点检测算法研究[D].北京邮电大学,2020.DOI:10.26969/d.cnki.gbydu.2020.002191.
[2]高新波,蒋雪,张颜.一种基于密集注意力的轻量级人脸关键点检测方法[P].重庆市:CN116110106A,2023-05-12.
[3]李利明,李钊,翁翔羽等.一种人脸关键点的检测方法、系统和电子设备[P].北京市:CN115311730B,2023-06-20.
[4]惠兰清,曹姗,徐树公.针对重参数化模型的可配置神经网络加速设计[J].工业控制计算机,2022,35(07):130-132.
发明内容
为解决同样结构的深度卷积神经网络在不同硬件水平下进行难以做都到实时的人脸关键点检测问题,本发明提供一种基于重参数化的深度神经网络的人脸关键点检测方法。本发明可用于不同水平的硬件设备、光照强度及人脸角度,对于不同的环境以及设备情况,可以保证较高的检测准确性和快速性。可以智能、快速、准确地的进行检测,技术方案如下:
S1:构建有106点标注的人脸图片数据库,并分割为训练集和验证集;
S2:使用在线的数据增强处理图片,包含旋转、平移、色彩通道互换、随机遮盖、图像灰度化;
S3:使用经过数据增强的图片训练一个未经重参数化的深度卷积神经网络;
S4:对经过训练的深度卷积神经网络进行重参数化,得到简化的深度卷积神经网络。
进一步地,S1中,构建有106点标注的人脸图片数据库,并按照8:2的比例分割为训练集和验证集,具体如下:
获取包含人脸的图片,挑选出其中人脸占比超过50%的图片,进行标注,去除未检测出人脸关键点的图片与人脸关键点检测有误的图片,初步构建有106点标注的人脸图片数据库。将数据库中80%的图片划分为训练集,20%的图片划分为验证集
进一步地,S2中,使用在线的数据增强处理图片,具体如下:
对训练集中的数据进行预处理包括:首先根据106个关键点信息对训练集中的图片进行裁剪,提取出人脸部分的图片,对裁剪后得到的人脸图片进行数据增强,使用的数据增强方法有旋转、平移、色彩通道互换、随机遮盖、图像灰度化。每种数据增强对原始图片的修改强度由随机数决定,以保证每次传入模型的图片是全新的。将经过在线数据增强的图片进行归一化,并缩放到高为112像素,宽为112像素的大小,以tensor形式传入未经重参数化的深度卷积神经网络。
进一步地,S3中,使用经过数据增强的图片训练1个未经重参数化的深度卷积神经网络,具体如下:
特征提取阶段由2个多分支合并学习模块与1个平均池化层组成。多分支合并学习模块是可进行重参数化的多分支结构,当在训练阶段时,每个分支独立学习内容,最后将每个分支的结果相加;当在推理阶段时,不同分支将合并为1条支路。首先将经过数据增强的图片传入第1个多分支合并学习模块中,其结构为6分支,输入通道为3,输出通道为64,卷积核大小3*3,步长为2;接着传入第2个多分支合并学习模块中,其结构为6分支,输入通道为64,输出通道为64,卷积核大小3*3,步长为1;保存此时的输出特征向量为x1。
特征复用阶段由10个轻量级特征学习瓶颈结构与3个平均池化层组成。轻量级特征学习瓶颈结构是可进行重参数化的残差结构,当在训练阶段时,共有2个支路:1个为卷积层与批标准化层、1个批标准化层,最后将2个分支的结果相加;当在推理阶段时,批标准化层将作为1个特殊的卷积层,与卷积层合并。10个轻量级特征学习瓶颈结构的参数定义为:输入通道数[64,80,80,80,96,96,96,144,144,144]、隐层通道数[96,120,120,200,240,240,336,504,504,504]、输出通道数[80,80,80,96,96,96,144,144,144,144]。其中3,6,10层之后会连接1个平均池化层,共计3个,保存每个平均池化层的输出的不同尺度的特征向量为x2,x3,x4。
预测阶段由1个轻量级特征学习瓶颈结构、1个多分支合并学习模块、1个卷积块、1个平均池化层与1个全连接层组成。特征复用阶段最后的输出向量作为预测阶段的输入首先传入1个输入通道数为144,隐层数为216,输出通道数为16的轻量级特征学习瓶颈结构中;进一步传入输入通道数为16,输出通道数为32,卷积核大小为3*3,步长为1的多分支合并学习模块中;进一步传入输入通道数为32,输出通道数为128,卷积核大小为7*7,步长为1的卷积块中;之后连接1个平均池化层,并保存输出的特征向量为x5。
将将之前保存下来的不同尺度的特征向量x1,x2,x3,x4,x5,分别转化为一维数组,并拼接成1个新的一维数组,如公式(2)所示:
M=[x1,x2,x3,x4,x5] (2)
其中M代表多尺度特征图数组,接下来使用全连接层,将多尺度特征图数组转化为形状为106*2的二维数组来表示预测的106个人脸关键点坐标。当未经重参数化的深度卷积神经网络预测出106个人脸关键点坐标后,使用WingLoss计算预测结果与真实标签的误差,并通过反向传播来更新参数。重复此过程直到模型收敛,并保存训练好的未经重参数化的深度卷积神经网络的模型权重。
进一步地,S4中,对经过训练的深度卷积神经网络进行重参数化,得到简化的深度卷积神经网络,具体如下:
读取训练好的未经重参数化的深度卷积神经网络的模型权重。遍历该模型权重中的模块,对其中的多分支合并学习模块,轻量级特征学习瓶颈结构进行重参数化。按照规则简化其中的网络结构,并保存,得到一个通过重参数化简化的深度卷积神经网络模型。
本发明的有益效果为:
本发明是基于深度学习的人脸关键点检测方法,提出了一种基于重参数化的深度神经网络的人脸关键点检测方法。在使用轻量级模块的基础上,在训练阶段使用多分支来提升参数量,提高深度卷积神经网络的特征学习、特征复用、预测的能力,并在推理阶段利用重参数化合并不同的分支参数,减少深度卷积神经网络的参数量和计算量的同时保证了推理的准确性。使其能够在一处进行训练,之后在不同算力的硬件设备上都可做到实时进行人脸关键点检测。
附图说明
图1训练阶段的深度卷积神经网络结构
图2多分支合并学习模块重参数化过程
图3轻量级特征学习模块重参数化过程
具体实施方式
为使本发明的技术方案更加清楚,下面结合附图对本发明做进一步阐述。本发明按以下步骤具体实现:
第一步,构建有106点标注的人脸图片数据库,并分割为训练集和验证集。
获取含有人脸的图片,利用面部检测算法来对图片进行筛选,剔除检测不到人脸的图片。并进一步筛选,保留人脸占比超过50%的图片,并对筛选后的图片进行106点标注,每张图片得到3组信息:图像文件名、包含面部的矩形框体的左上角与右下角坐标、对应人脸的106个关键点坐标。以1个图片为单位,将对应的3组信息以字典的形式保存在JSON格式的文件中,作为人脸的真实关键点标签,用于后续深度卷积神经网络的训练。
第二步,使用在线的数据增强处理图片。
考虑到实际的人脸关键点检测中人的面部会以各种角度出现、人面部的光影色彩变化以及摄像头不同的特点,为了提高系统的鲁棒性和准确性,我们对训练数据进行图像增强。本发明采用5种图像增强方法对图像进行增强,其中S(o)为增强后图像,S(i)为原始图像,具体如下:
a)图像旋转。随机选取-45°到45°作为旋转范围,旋转后矩形的空白部分以灰色填充。式中R(·)为旋转函数。
S(o)=R(S(i))
b)图像平移。随机选取0-1的随机浮点数作为平移比例,式中M(·)为平移函数。
S(o)=M(S(i))
c)色彩通道互换。随机生成0-1的随机浮点数,若大于0.5则进行色彩通道互换,式中C(·)为平移函数。
S(o)=C(S(i))
d)图像随机遮盖。随机遮盖图像20%的区域。式中D(·)为亮度变化函数。
S(o)=D(S(i))
e)图像灰度化。随机生成0-1的随机浮点数,若大于0.5则将图片转换成灰度图,式中G(·)为平移函数。
S(o)=G(S(i))
在使用以上几种常见的数据增强方法后,还对人脸图像进行归一化,并缩放到宽112像素、高112像素的大小。以此来完成对106点标注的人脸关键点数据集的图像增强,最终会得到1个宽112像素、高112像素的BGR色彩空间的图像。在线数据增强的方式可以保证每一个训练阶段输入深度卷积神经网络的数据都是不同的。
第三步,使用经过数据增强的图片训练一个未经重参数化的深度卷积神经网络。
训练阶段的深度卷积神经网络的结构如图1所示,逻辑上将其分为3个部分:特征提取阶段、特征复用阶段、预测阶段。
a)特征提取模块利用了可分离卷积的思想,由2个3*3的多分支合并学习模块组成。其中多分支合并学习模块是可重参数化模块,如图2左侧所示,在训练阶段该模块包含6条形状相同的卷积支路,重参数化后,6条形状相同的支路的将合并为1条支路。多分支合并学习模块在训练阶段的具体结构包含:1条跳跃连接(skip coonnection)、6条由3*3卷积、批标准化层、ReLU激活函数构成的支路;在推理阶段为1条由3*3卷积、批标准化层、ReLU激活函数构成的支路。
b)特征复用模块包含10个轻量级特征学习瓶颈结构,通过对每1个模块的隐层参数设置不同参数,能赋予其不同的特征学习能力。轻量级特征学习瓶颈结构具体由2个轻量级特征学习模块组成,轻量级特征学习模块是可重参数化模块,如图3所示。轻量级特征学习模块在训练阶段包含2条支路,1条包含1条由3*3卷积,批标准化层,ReLU激活函数构成的支路,另外1条是跳跃连接,2条支路的结果会通过concat操作拼接;在推理阶段,经过重参数化后,批标准化层、3*3卷积与跳跃连接合并为1个3*3卷积,并将ReLU激活函数更换至合并后的支路末尾,最后得到1条仅包含1个3*3卷积和1个ReLU激活函数的支路。
c)特征融合模块包含1个多分支合并学习模块、4个池化层与1个全连接层,目的是将特征提取阶段的高层特征与特征复用阶段的低层特征归一到同一尺度,将这些特征拼接后输入全连接层,转化为1个106*2的向量来表示预测出的106个人脸关键点。
一次完整的训练包括,获得经过数据增强的图片,经过模型预测后使用WingLoss作为损失函数,其能为不同人脸部位的关键点赋予非线性,得到Loss后对模型进行反向传播,更新参数。WingLoss表达式如(3)所示:
式中ω是一个非负数,它将非线性部分限制在(-ω,ω)区间内,∈用于约束曲线的弯曲程度。C就是一个常量,用于连接损失函数的线性和非线性部分。
第四步,对已完成训练的深度卷积神经网络进行重参数化,得到简化的深度卷积神经网络。
为了在不影响准确度的情况下高效减小其参数量,进而减少计算量,我们分别对其中的多分支合并学习模块和轻量级特征学习结构进行重参数化。其重参数化前后对比分别如图2,图3所示。
Claims (6)
1.一种基于重参数化的轻量级人脸关键点检测的方法,包括下列步骤:
S1:构建有106点标注的人脸图片数据库,并分割为训练集和验证集;
S2:使用在线的数据增强处理图片;
S3:使用经过数据增强的图片训练一个未经重参数化的深度卷积神经网络;
S4:对经过训练的深度卷积神经网络进行重参数化,得到简化的深度卷积神经网络。
2.根据权利要求1所述的基于重参数化的轻量级人脸关键点检测的方法,其特征在于:
S1的分解如下:
S11:构建有106点标注的人脸图片数据库,方法如下:获取包含人脸的图片,挑选出人脸占比较大的图片,进行标注,去除未检测出人脸关键点的图片与人脸关键点检测有误的图片,初步构建有106点标注的人脸图片数据库。
S12:将数据库中80%的图片划分为训练集,20%的图片划分为验证集。
3.根据权利要求1所述的基于重参数化的轻量级人脸关键点检测的方法,其特征在于:
S2:的分解如下:
S21:对训练集中的数据进行预处理包括:首先根据106个关键点信息对训练集中的图片进行裁剪,提取出人脸部分的图片,对裁剪后得到的人脸图片进行数据增强,使用的数据增强方法有旋转、平移、色彩通道互换、随机遮盖、图像灰度化。每种数据增强对原始图片的修改强度由随机数决定,以保证每次传入模型的图片是全新的。
S22:将经过在线数据增强的图片进行归一化,并缩放到宽为112像素,高为112像素的大小,以tensor形式传入未经重参数化的深度卷积神经网络。
4.根据权利要求1所述的基于重参数化的轻量级人脸关键点检测的方法,其特征在于:
未经重参数化的深度卷积神经网络大体可分为3个部分:特征提取阶段、特征复用阶段、预测阶段。
S3的分解如下:
S31:特征提取阶段由2个多分支合并学习模块(MobileOneBlock)与1个平均池化层组成。多分支合并学习模块是可进行重参数化的多分支结构,当在训练阶段时,每个分支独立学习内容,最后将每个分支的结果相加;当在推理阶段时,不同分支将合并为1条支路。
首先将经过数据增强的图片传入第1个多分支合并学习模块中,其结构为6分支,输入通道为3,输出通道为64,卷积核大小3*3,步长为2;接着传入第2个MobileOneBlock中,其结构为6分支,输入通道为64,输出通道为64,卷积核大小3*3,步长为1;保存此时的输出特征向量为x1。
S32:特征复用阶段由10个轻量级特征学习瓶颈结构(RepGhostBottleneck)与3个平均池化层组成。轻量级特征学习瓶颈结构是可进行重参数化的残差结构,当在训练阶段时,共有2个支路:1个为卷积层(Convolution)与批标准化层(BatchNorm)、1个为批标准化层,最后将2个分支的结果相加;当在推理阶段时,批标准化层将作为1个特殊的卷积层与卷积层合并。
10个轻量级特征学习瓶颈结构的参数定义为:输入通道数[64,80,80,80,96,96,96,144,144,144]、隐层通道数[96,120,120,200,240,240,336,504,504,504]、输出通道数[80,80,80,96,96,96,144,144,144,144]。其中3,6,10层之后会各连接1个平均池化层,共计3个,保存每个平均池化层的输出的不同尺度的特征向量为x2,x3,x4。
S33:预测阶段由1个轻量级特征学习瓶颈结构、1个多分支合并学习模块、1个卷积块(ConvBlock)、1个平均池化层与1个全连接层组成。特征复用阶段最后的输出向量作为预测阶段的输入首先传入1个输入通道数为144,隐层数为216,输出通道数为16的轻量级特征学习瓶颈结构中;进一步传入输入通道数为16,输出通道数为32,卷积核大小为3*3,步长为1的多分支合并学习模块中;进一步传入输入通道数为32,输出通道数为128,卷积核大小为7*7,步长为1的卷积块中;之后连接1个平均池化层,并保存输出的特征向量为x5。
将之前保存下来的不同尺度的特征向量x1,x2,x3,x4,x5,分别转化为一维数组,并拼接成1个新的一维数组,如公式(1)所示:
M=[x1,x2,x3,x4,x5] (1)
其中M代表多尺度特征图数组,接下来使用全连接层,将多尺度特征图数组转化为形状为106*2的二维数组来表示预测的106个人脸关键点坐标。
S34:当未经重参数化的深度卷积神经网络预测出106个人脸关键点坐标后,使用WingLoss计算预测结果与真实标签的误差,并通过反向传播来更新参数。重复此过程直到模型收敛,并保存训练好的未经重参数化的深度卷积神经网络的模型权重。
5.根据权利要求1所述的基于重参数化的轻量级人脸关键点检测的方法,其特征在于:
S4的分解如下:
S41:读取训练好的未经重参数化的深度卷积神经网络的模型权重。
S42:遍历该模型权重中的模块,对其中的多分支合并学习模块,轻量级特征学习瓶颈结构进行重参数化。按照规则简化其中的网络结构,并保存,得到1个通过重参数化简化的深度卷积神经网络模型。
6.根据权利要求5所述的基于重参数化的轻量级人脸关键点检测的方法,其特征在于:
重参数化技术是一种将训练好的深度卷积神经网络结构,在不损耗精度的情况下转换成另一种结构的技术。重参数化的具体分解如下:
首先,确定训练阶段的深度卷积神经网络结构并进行训练;当训练阶段的深度卷积神经网络结束训练后,在推理阶段,对其中的一部分结构进行等效代换,即更换结构后,若输入一样的数据,则输出也是一样的数据。由于深度卷积神经网络在计算机中是以矩阵的形式保存,所以重参数化可以控制更换前后的深度卷积神经网络结构拥有相同的数学运算结果。得益于训练、推理两个阶段的不同深度卷积神经网络结构,例如,重参数化即可在训练阶段利用多分支结构的较强的特征学习能力,也可在推理阶段利用单分支的小计算量的优点。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310917625.3A CN117115880A (zh) | 2023-07-23 | 2023-07-23 | 一种基于重参数化的轻量级人脸关键点检测的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310917625.3A CN117115880A (zh) | 2023-07-23 | 2023-07-23 | 一种基于重参数化的轻量级人脸关键点检测的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117115880A true CN117115880A (zh) | 2023-11-24 |
Family
ID=88808243
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310917625.3A Pending CN117115880A (zh) | 2023-07-23 | 2023-07-23 | 一种基于重参数化的轻量级人脸关键点检测的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117115880A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117789181A (zh) * | 2024-02-27 | 2024-03-29 | 暨南大学 | 基于轻量级神经网络图像增强的驾驶疲劳检测方法与系统 |
-
2023
- 2023-07-23 CN CN202310917625.3A patent/CN117115880A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117789181A (zh) * | 2024-02-27 | 2024-03-29 | 暨南大学 | 基于轻量级神经网络图像增强的驾驶疲劳检测方法与系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107945204B (zh) | 一种基于生成对抗网络的像素级人像抠图方法 | |
Lin et al. | Transfer learning based traffic sign recognition using inception-v3 model | |
CN112115783B (zh) | 基于深度知识迁移的人脸特征点检测方法、装置及设备 | |
CN110175248B (zh) | 一种基于深度学习和哈希编码的人脸图像检索方法和装置 | |
CN110599502B (zh) | 一种基于深度学习的皮肤病变分割方法 | |
CN113221852B (zh) | 一种目标识别方法及装置 | |
CN111325766B (zh) | 三维边缘检测方法、装置、存储介质和计算机设备 | |
CN111666937A (zh) | 一种图像中的文本识别方法及系统 | |
CN117115880A (zh) | 一种基于重参数化的轻量级人脸关键点检测的方法 | |
CN111401156A (zh) | 基于Gabor卷积神经网络的图像识别方法 | |
CN111461006B (zh) | 一种基于深度迁移学习的光学遥感图像杆塔位置检测方法 | |
CN115527072A (zh) | 一种基于稀疏空间感知与元学习的芯片表面缺陷检测方法 | |
CN114898472A (zh) | 基于孪生视觉Transformer网络的签名鉴定方法和系统 | |
Wu et al. | STR transformer: a cross-domain transformer for scene text recognition | |
Manzari et al. | A robust network for embedded traffic sign recognition | |
CN117033609B (zh) | 文本视觉问答方法、装置、计算机设备和存储介质 | |
CN117437691A (zh) | 一种基于轻量化网络的实时多人异常行为识别方法及系统 | |
CN116796287A (zh) | 图文理解模型的预训练方法、装置、设备及存储介质 | |
CN116109868A (zh) | 基于轻量化神经网络的图像分类模型构建和小样本图像分类方法 | |
CN115661451A (zh) | 一种深度学习单帧红外弱小目标高分辨率分割方法 | |
CN113313185A (zh) | 一种基于自适应空谱特征提取的高光谱图像分类方法 | |
Jain et al. | Flynet–Neural Network Model for Automatic Building Detection from Satellite Images | |
CN117058437B (zh) | 一种基于知识蒸馏的花卉分类方法、系统、设备及介质 | |
CN115983986B (zh) | 一种针对视频面审人像的衣着暴露等级识别方法 | |
WO2020196917A1 (ja) | 画像認識装置、及び画像認識プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |