CN105354565A - 基于全卷积网络人脸五官定位与判别的方法及系统 - Google Patents

基于全卷积网络人脸五官定位与判别的方法及系统 Download PDF

Info

Publication number
CN105354565A
CN105354565A CN201510980543.9A CN201510980543A CN105354565A CN 105354565 A CN105354565 A CN 105354565A CN 201510980543 A CN201510980543 A CN 201510980543A CN 105354565 A CN105354565 A CN 105354565A
Authority
CN
China
Prior art keywords
layer
length stride
convolution kernel
kernel size
neural networks
Prior art date
Application number
CN201510980543.9A
Other languages
English (en)
Inventor
石建萍
梁继
隋凌志
Original Assignee
北京市商汤科技开发有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 北京市商汤科技开发有限公司 filed Critical 北京市商汤科技开发有限公司
Priority to CN201510980543.9A priority Critical patent/CN105354565A/zh
Publication of CN105354565A publication Critical patent/CN105354565A/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06KRECOGNITION OF DATA; PRESENTATION OF DATA; RECORD CARRIERS; HANDLING RECORD CARRIERS
    • G06K9/00Methods or arrangements for reading or recognising printed or written characters or for recognising patterns, e.g. fingerprints
    • G06K9/00221Acquiring or recognising human faces, facial parts, facial sketches, facial expressions
    • G06K9/00228Detection; Localisation; Normalisation
    • G06K9/00248Detection; Localisation; Normalisation using facial parts and geometric relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06KRECOGNITION OF DATA; PRESENTATION OF DATA; RECORD CARRIERS; HANDLING RECORD CARRIERS
    • G06K9/00Methods or arrangements for reading or recognising printed or written characters or for recognising patterns, e.g. fingerprints
    • G06K9/00221Acquiring or recognising human faces, facial parts, facial sketches, facial expressions
    • G06K9/00288Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06KRECOGNITION OF DATA; PRESENTATION OF DATA; RECORD CARRIERS; HANDLING RECORD CARRIERS
    • G06K9/00Methods or arrangements for reading or recognising printed or written characters or for recognising patterns, e.g. fingerprints
    • G06K9/62Methods or arrangements for recognition using electronic means
    • G06K9/6217Design or setup of recognition systems and techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06K9/6256Obtaining sets of training patterns; Bootstrap methods, e.g. bagging, boosting

Abstract

本申请提供了一种基于全卷积网络人脸五官定位与判别方法及系统,其中该方法具体包括:收集人脸图片并对人脸五官进行标注,形成一个训练数据集合;设计一个全卷积神经网络;利用训练数据集合对全卷积神经网络进行训练;利用已经训练好的全卷积神经网络,对人脸图片进行五官定位和标注。本申请通过全卷积网络进行图像分割的方式,能够得到输入人脸每一点的预测类别,从而能够得到精确的五官位置,避免了基于人脸关键点的关键点不足以及关键点不够稳定的问题。

Description

基于全卷积网络人脸五官定位与判别的方法及系统

技术领域

[0001] 本发明涉及图像处理的人脸识别领域,具体涉及一种基于全卷积网络人脸五官定位与判别的方法及系统。

背景技术

[0002] 人脸作为人体的一个重要生物特征,近几年在图像处理,视觉技术,信息安全等领域有着越来越重要的作用。而人脸中,五官的判别与定位技术是人脸识别,人脸跟踪等应用的基础。现有的人脸五官定位技术主要通过预测一些预先设计的关键点,如眼角、眉梢、嘴角等实现。一般常见的人脸关键点个数为每张人脸21个关键点。而这种基于人脸关键点定位的方式由于关键点位置少,识别准确度和精度都不高,对于一些需要细节的应用,如美图、定妆等图像处理应用,则很难满足要求。

[0003]目前,利用人脸关键点定位的方式,为了达到美妆级别的精度,通常的做法是增加预测的关键点的数目,如将关键点个数增加为68个或106个。但该方法会遇到如下问题:1)增多的人脸关键点的标注数据仍不够多;2)68点或106点仍没有完全覆盖五官的边界,从关键点生成的五官区域通常是多边形,形状并不准确,依然难以达到美妆等应用的精度需求;3)人脸关键点会在边界上有小范围移动偏差(如眼睛中间的一点可能在前帧偏左,而后帧偏右),导致视频上的结果会有抖动。

发明内容

[0004] 为了解决现有技术中,人脸五官识别的准确度和精度不高,无法满足多细节且高精度的应用需求的问题,本发明提出了一种基于全卷积网络人脸五官定位与判别的方法和系统。

[0005] 该基于全卷积网络的人脸五官定位方法,包括:

[0006] 步骤11:收集人脸图片并对人脸五官进行标注,形成一个训练数据集合;

[0007] 步骤12:设计一个全卷积神经网络;

[0008] 步骤13:利用步骤11中的训练数据集合对步骤12中设计的全卷积神经网络进行训练;

[0009] 步骤14:利用步骤13已经训练好的全卷积神经网络,对人脸图片进行五官定位和标注。

[0010] 该基于全卷积网络的人脸五官定位系统,包括:

[0011] 收集标注模块,收集人脸图片并对人脸五官进行标注,形成一个训练数据集合;

[0012] 神经网络设计模块,用于设计一个全卷积神经网络;

[0013] 神经网络训练模块,用于利用收集标注模块中的训练数据集合对神经网络设计模块中设计的全卷积神经网络进行训练;

[0014] 五官定位标注模块,利用神经网络训练模块中的已经训练好的全卷积神经网络,对人脸图片进行五官定位和标注。

[0015] 本发明的基于全卷积网络的人脸五官定位方法与现有的基于人脸关键点定位的五官定位方法相比,本发明能够得到输入人脸图像每个像素点的类别,从而实现高精度的人脸五官识别,彻底解决了现有技术中关键点个数不足,生成的五官定位形状不准确,精度不高等问题。

[0016] 本发明通过全卷积网络进行图像分割的方式,能够得到输入人脸每一点的预测类另IJ,从而能够得到精确的五官位置,避免了基于人脸关键点的关键点不足以及关键点不够稳定的问题。

[0017] 和公知的全卷积神经网络相比,本发明通过在卷积层之后增加两层反卷积层,将输出放大到与输入图片同样的大小。具体的,在第9层卷积化层之后,特征大小仅为原图的1/16,直接输出结果无法达到像素级别的精度。而通过之后的三层反卷积层,我们能够得到的输出具有像素级别精度的结果。通过学习反卷积的权重大小能够更好的得到更适宜的放大参数。利用该神经网络的分类结果如图3所示。

附图说明

[0018] 图1是基于全卷积网络人脸五官定位与判别方法的流程图;

[0019] 图2是全卷积网络的分层结构示意图;

[0020] 图3是基于全卷积网络人脸五官定位与判别方法的结果示意图;

[0021] 图4是基于全卷积网络人脸五官定位与判别系统的整体框架图。

具体实施方式

[0022] 下面结合附图1-3和具体实施方式,对本申请中的基于全卷积网络人脸五官定位与判别方法做进一步详细的说明。

[0023] 参见附图1所示,所述人脸五官定位与判别方法,包括如下步骤:

[0024] 步骤11:收集人脸图片并对人脸五官进行标注,形成一个训练数据集合。

[0025] 针对收集的人脸图片,手工标注五官类别。五官类别包括但不限于,脸部,左眼,右目艮,左眉,右眉,鼻子,上嘴唇,下嘴唇,嘴中部,舌部,及背景。

[0026] 为了获得更好的训练效果,优选的,手工标注为像素级别标注。针对收集的人脸图片,按照像素进行五官类别的标注,针对边界区域,按照最可能的归属类别进行标注。

[0027] 此外,优选的,收集的人脸图片可以具有多样性,可以包括人脸的正面图片,侧面图片,五官信息完全的图片,或只有部分五官信息的图片,图片清晰或者模糊但是五官仍然可以识别的图片。但五官很小或非常模糊的图片不包含在训练数据集合中。

[0028] 优选的,在标注五官前,先预处理收集的人脸图片。预处理操作具体包括:

[0029] 步骤10:截取训练数据集合的人脸图片中的人脸区域,去掉多余的背景区域,并对人脸进行转正、对齐。

[0030] 因为不同的人脸照片,具有不同的姿态。为了使得训练效果更好,可以利用自适应增强分类器(AdaBoost分类器)或者传统深度学习的人脸检测算法检测人脸和人脸关键点。所述人脸关键点包括眼角、眉毛的末端、嘴角、鼻尖等位置信息。根据检测的人脸关键点,计算一个该人脸到标准人脸的仿射或者相似变换,把该人脸与标准人脸对齐。

[0031] 步骤12:设计一个全卷积神经网络。该全卷积神经网络的前端可以是任何多个卷积层(convolut1nal layer)和池化层(pooling layer)的组合,后端是多个反卷积层(deconvolut1n layer)的组合,最后为softmax或其他等效损耗层。该神经网络的具体层结构如附图2所示。

[0032] 在一个优选的实施例中,该全卷积神经网络的结构如下:

[0033] 第一层,卷积层,卷积核大小为3x3,步长stride为2 ;

[0034] 第二层,最大池化层(Max pooling),池化区间为2x2,步长stride为2 ;

[0035] 第三层,卷积层,卷积核大小为3x3,步长Stride为1 ;

[0036] 第四层,最大池化层(Max pooling),池化区间为2x2,步长stride为2 ;

[0037] 第五层,卷积层,卷积核大小为3x3,步长Stride为1 ;

[0038] 第六层,最大池化层(Max pooling),池化区间为2x2,步长stride为2 ;

[0039] 第七层,卷积层,卷积核大小为3x3,步长stride为1 ;

[0040] 第八层,卷积层,卷积核大小为3x3,步长stride为1 ;

[0041] 第九层,卷积层,卷积核大小为3x3,步长stride为1 ;

[0042] 第十层,反卷积层,卷积核大小为6x6,步长stride为4 ;

[0043] 第^^一层,反卷积层,卷积核大小为6x6,步长stride为4 ;

[0044] 第十二层,反卷积层,卷积核大小为6x6,步长stride为1。

[0045] 在上述全卷积神经网络中,每个卷积层和反卷积层之后都有一个非线性响应单元。卷积层的输入是经过预处理的图像或者图像特征,通过一线性变换输出新的图像特征。池化层主要将多个数值映射到一个数值,该层连接在卷积层后面,用于进一步加强学习到的图像特征的非线性,增强学习的特征的平移不变性。该非线性响应单元采用纠正线性单元ReLU(Rectified Linear Units),在卷积层和反卷积层后增加上述纠正线性单元,主要用于将卷积层和反卷积层的映射结果尽量稀疏一些,更接近人的视觉反应,从而使图像处理效果更好。

[0046] 将卷积层的卷积核设为3x3,能更好的综合局部信息。

[0047] 设定卷积层和最大池化层(Max pooling)的步长stride,目的是为了让上层特征在不增加计算量的前提下获得更大的视野,同时最大池化层的步长stride还有增强空间不变性的特征,即允许同样的输入出现在不同的图像位置上,而输出结果响应相同。

[0048] 反卷积层为卷积层的逆向操作,反卷积层的步长stride产生的效果是相应的扩大输出,从而达到在人脸分割和五官识别的目标中,输出和输入同样大小,即全图每一个像素都有其对应的类别。反卷积层的卷积核比卷积层大,目的是希望综合更多的底层特征来智能的得到放大的结果。

[0049] 在一个优选实施例中,在最后第十二层的反卷积层后增加一损耗层,即softmaxloss层,用于计算损耗。

[0050] 本申请通过在三层1x1的卷积层之后增加三层反卷积层,将输出放大到与输入图片同样的大小。通过学习反卷积的权重大小能够更好的得到更适宜的放大参数。采用全卷积网络分割的方式,可以精确的学习出每一点的类别,得到密集的五官标注结果。

[0051] 综上所述,该全卷积神经网络的卷积层主要用于信息归纳和融合。最大池化层(Max pooling)主要进行高层信息的归纳。而反卷积层将输出放大到输入大小。该神经网络结构可以进行微调来适应不同的性能和效率的权衡。

[0052] 步骤13:利用步骤11中的训练数据集合对步骤12中设计的全卷积神经网络进行训练。

[0053]训练方法采用随机梯度下降法。该训练方法中的迭代次数,学习率的初始设置可以随意设定。

[0054] 在一个优选的实施例中,训练过程总共迭代约60000次。学习率初始设置为0.001,之后每20000轮学习率更新为原来的1/10。

[0055] 优选的,对于步骤11中的训练数据集合的图片,进行随机旋转正负30度,随机进行90% -110%的大小变化扰动,随机左右翻转,来扩充训练样本。步骤13也可以采用扩充的训练样本对全卷积神经网络进行训练。

[0056] 步骤14:利用步骤13已经训练好的全卷积神经网络,对人脸图片进行五官定位和标注。

[0057] 对步骤13中已经训练好的全卷积神经网络,进行简单改变。增加一输入层和一输出层,输入层接受任意大小的原始图片,全卷积网络将输出的像素级别的人脸分割结果,及五官的定位与标注。

[0058] 最终的结果如图3所示,输入图片为一张包含人脸的图片,经过本申请的全卷积神经网络分类后,能够输出对应的五官分类结果和标注,例如眉毛类别,眼睛类别,鼻子类另IJ,上嘴唇类别,舌头类别,下嘴唇类别,以及脸部。上述五官分类能够精确到像素级,即可以精确的学习到包含人脸图片的每一个点的类别,从而得到密集的五官标注结果。

[0059] 此外,本申请还公开了一种全卷积网络人脸五官定位与判别的系统。参见附图4所示,所述人脸五官定位与判别系统,包括如下模块:

[0060] 收集标注模块,用于收集人脸图片并对人脸五官进行标注,形成一个训练数据集入口 ο

[0061] 针对收集的人脸图片,手工标注五官类别。五官类别包括但不限于,脸部,左眼,右目艮,左眉,右眉,鼻子,上嘴唇,下嘴唇,嘴中部,舌部,及背景。

[0062] 为了获得更好的训练效果,优选的,手工标注为像素级别标注。针对收集的人脸图片,按照像素进行五官类别的标注,针对边界区域,按照最可能的归属类别进行标注。

[0063] 此外,优选的,收集的人脸图片可以具有多样性,可以包括人脸的正面图片,侧面图片,五官信息完全的图片,或只有部分五官信息的图片,图片清晰或者模糊但是五官仍然可以识别的图片。但五官很小或非常模糊的图片不包含在训练数据集合中。

[0064] 优选的,系统还包括一预处理模块,用于截取训练数据集合的人脸图片中的人脸区域,去掉多余的背景区域,并对人脸进行转正、对齐。

[0065] 因为不同的人脸照片,具有不同的姿态。为了使得训练效果更好,可以利用自适应增强分类器(AdaBoost分类器)或者传统深度学习的人脸检测算法检测人脸和人脸关键点。所述人脸关键点包括眼角、眉毛的末端、嘴角、鼻尖等位置信息。根据检测的人脸关键点,计算一个该人脸到标准人脸的仿射或者相似变换,把该人脸与标准人脸对齐。

[0066] 神经网络设计模块,用于设计一个全卷积神经网络。该全卷积神经网络的前端可以是任何多个卷积层(convolut1nal layer)和池化层(pooling layer)的组合,后端是多个反卷积层(deconvolut1n layer)的组合,最后为softmax或其他等效损耗层。该神经网络的具体层结构如附图2所示。

[0067] 在一个优选的实施例中,该全卷积神经网络的结构如下:

[0068] 第一层,卷积层,卷积核大小为3x3,步长stride为2 ;

[0069] 第二层,最大池化层(Max pooling),池化区间为2x2,步长stride为2 ;

[0070] 第三层,卷积层,卷积核大小为3x3,步长Stride为1 ;

[0071] 第四层,最大池化层(Max pooling),池化区间为2x2,步长stride为2 ;

[0072] 第五层,卷积层,卷积核大小为3x3,步长Stride为1 ;

[0073] 第六层,最大池化层(Max pooling),池化区间为2x2,步长stride为2 ;

[0074] 第七层,卷积层,卷积核大小为3x3,步长stride为1 ;

[0075] 第八层,卷积层,卷积核大小为3x3,步长stride为1 ;

[0076] 第九层,卷积层,卷积核大小为3x3,步长stride为1 ;

[0077] 第十层,反卷积层,卷积核大小为6x6,步长stride为4 ;

[0078] 第^^一层,反卷积层,卷积核大小为6x6,步长stride为4 ;

[0079] 第十二层,反卷积层,卷积核大小为6x6,步长stride为1。

[0080] 在上述全卷积神经网络中,每个卷积层和反卷积层之后都有一个非线性响应单元。卷积层的输入是经过预处理的图像或者图像特征,通过一线性变换输出新的图像特征。池化层主要将多个数值映射到一个数值,该层连接在卷积层后面,用于进一步加强学习到的图像特征的非线性,增强学习的特征的平移不变性。该非线性响应单元采用纠正线性单元ReLU(Rectified Linear Units),在卷积层和反卷积层后增加上述纠正线性单元,主要用于将卷积层和反卷积层的映射结果尽量稀疏一些,更接近人的视觉反应,从而使图像处理效果更好。

[0081] 将卷积层的卷积核设为3x3,能更好的综合局部信息。

[0082] 设定卷积层和最大池化层(Max pooling)的步长stride,目的是为了让上层特征在不增加计算量的前提下获得更大的视野,同时最大池化层的步长stride还有增强空间不变性的特征,即允许同样的输入出现在不同的图像位置上,而输出结果响应相同。

[0083] 反卷积层为卷积层的逆向操作,反卷积层的步长stride产生的效果是相应的扩大输出,从而达到在人脸分割和五官识别的目标中,输出和输入同样大小,即全图每一个像素都有其对应的类别。反卷积层的卷积核比卷积层大,目的是希望综合更多的底层特征来智能的得到放大的结果。

[0084] 在一个优选实施例中,在最后第十二层的反卷积层后增加一损耗层,即softmaxloss层,用于计算损耗。

[0085] 本申请通过在三层1x1的卷积层之后增加三层反卷积层,将输出放大到与输入图片同样的大小。通过学习反卷积的权重大小能够更好的得到更适宜的放大参数。采用全卷积网络分割的方式,可以精确的学习出每一点的类别,得到密集的五官标注结果。

[0086] 综上所述,该全卷积神经网络的卷积层主要用于信息归纳和融合。最大池化层(Max pooling)主要进行高层信息的归纳。而反卷积层将输出放大到输入大小。该神经网络结构可以进行微调来适应不同的性能和效率的权衡。

[0087] 神经网络训练模块,用于利用收集标注模块中的训练数据集合对神经网络设计模块中设计的全卷积神经网络进行训练。

[0088]训练方法采用随机梯度下降法。该训练方法中的迭代次数,学习率的初始设置可以随意设定。

[0089] 在一个优选的实施例中,训练过程总共迭代约60000次。学习率初始设置为0.001,之后每20000轮学习率更新为原来的1/10。

[0090] 优选的,对于收集标注模块中的训练数据集合的图片,进行随机旋转正负30度,随机进行90% -110%的大小变化扰动,随机左右翻转,来扩充训练样本。神经网络训练模块也可以采用扩充的训练样本对全卷积神经网络进行训练。

[0091] 五官定位标注模块,利用神经网络训练模块中的已经训练好的全卷积神经网络,对人脸图片进行五官定位和标注。

[0092] 对神经网络训练模块中已经训练好的全卷积神经网络,进行简单改变。增加一输入层和一输出层,输入层接受任意大小的原始图片,全卷积网络将输出的像素级别的人脸分割结果,及五官的定位与标注。

[0093] 最终的结果如图3所示,输入图片为一张包含人脸的图片,经过本申请的全卷积神经网络分类后,能够输出对应的五官分类结果和标注,例如眉毛类别,眼睛类别,鼻子类另IJ,上嘴唇类别,舌头类别,下嘴唇类别,以及脸部。上述五官分类能够精确到像素级,即可以精确的学习到包含人脸图片的每一个点的类别,从而得到密集的五官标注结果。

[0094] 和公知的全卷积神经网络相比,本申请的卷积层之后有三层反卷积层,可以将输出放大到与输入图片同样的大小。具体的,在第九层卷积层之后,特征大小仅为原图的1/16,直接输出结果无法达到像素级别的精度。而通过之后的三层反卷积层,可以得到的输出具有像素级别精度的结果。通过学习反卷积的权重大小能够更好的得到更适宜的放大参数。

[0095] 本申请通过全卷积网络进行图像分割的方式,能够得到输入人脸每一点的预测类另IJ,从而能够得到精确的五官位置,避免了基于人脸关键点的关键点不足以及关键点不够稳定的问题。

[0096] 以上对本公开进行了详细介绍,本文中应用了具体个例对本公开的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本公开的方法及其核心思想;同时,对于本领域技术人员,依据本公开的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本公开的限制。

Claims (20)

1.一种基于全卷积网络人脸五官定位与判别方法,该方法包括如下步骤: 步骤11:收集人脸图片并对人脸五官进行标注,形成一个训练数据集合; 步骤12:设计一个全卷积神经网络; 步骤13:利用步骤11中的训练数据集合对步骤12中设计的全卷积神经网络进行训练; 步骤14:利用步骤13已经训练好的全卷积神经网络,对人脸图片进行五官定位和标注。
2.如权利要求1所述的方法,其特征在于,优选的,该方法还包括步骤S10:在对五官进行标注前,进行预处理操作,截取所述训练数据集合的人脸图片中的人脸区域,去掉多余的背景区域,并对人脸进行转正、对齐。
3.如权利要求2所述的方法,其特征在于,对人脸进行对齐具体为,利用AdaBoost分类器或者深度学习的人脸检测算法检测人脸和人脸关键点,根据检测的人脸关键点,计算该人脸到标准人脸的仿射或者相似变换,把该人脸与标准人脸对齐。
4.如权利要求1所述的方法,其特征在于,所述人脸五官标注为手工标注。
5.如权利要求4所述的方法,其特征在于,所述手工标注为像素级别标注。
6.如权利要求1所述的方法,其特征在于,所述全卷积神经网络的前端是多个卷积层和池化层的组合,后端是多个反卷积层的组合。
7.如权利要求6所述的方法,其特征在于,所述全卷积神经网络具体结构为, 第一层,卷积层,卷积核大小为3x3,步长stride为2 ; 第二层,最大池化层,池化区间为2x2,步长stride为2 ; 第三层,卷积层,卷积核大小为3x3,步长Stride为1 ; 第四层,最大池化层,池化区间为2x2,步长stride为2 ; 第五层,卷积层,卷积核大小为3x3,步长Stride为1 ; 第六层,最大池化层,池化区间为2x2,步长stride为2 ; 第七层,卷积层,卷积核大小为3x3,步长stride为1 ; 第八层,卷积层,卷积核大小为3x3,步长stride为1 ; 第九层,卷积层,卷积核大小为3x3,步长stride为1 ; 第十层,反卷积层,卷积核大小为6x6,步长stride为4 ; 第i^一层,反卷积层,卷积核大小为6x6,步长stride为4 ; 第十二层,反卷积层,卷积核大小为6x6,步长stride为1。
8.如权利要求6所述的方法,其特征在于,所述全卷积神经网络还包括一个损耗层,用于计算损耗。
9.如权利要求6所述的方法,其特征在于,在所述卷积层和所述反卷积层之后都增加一个非线性响应单元。
10.如权利要求1所述的方法,其特征在于,步骤S13中所述训练采用随机梯度下降法。
11.一种基于全卷积网络人脸五官定位与判别系统,该系统包括如下模块: 收集标注模块,收集人脸图片并对人脸五官进行标注,形成一个训练数据集合; 神经网络设计模块,用于设计一个全卷积神经网络; 神经网络训练模块,用于利用所述收集标注模块中的训练数据集合对所述神经网络设计模块中设计的全卷积神经网络进行训练; 五官定位标注模块,利用所述神经网络训练模块中的已经训练好的全卷积神经网络,对人脸图片进行五官定位和标注。
12.如权利要求11所述的系统,其特征在于,该系统还包括: 预处理模块,用于截取所述训练数据集合的人脸图片中的人脸区域,去掉多余的背景区域,并对人脸进行转正、对齐。
13.如权利要求12所述的系统,其特征在于,对人脸进行对齐具体为,利用AdaBoost分类器或者深度学习的人脸检测算法检测人脸和人脸关键点,根据检测的人脸关键点,计算该人脸到标准人脸的仿射或者相似变换,把该人脸与标准人脸对齐。
14.如权利要求11所述的系统,其特征在于,所述人脸五官标注为手工标注。
15.如权利要求14所述的系统,其特征在于,所述手工标注为像素级别标注。
16.如权利要求11所述的系统,其特征在于,所述全卷积神经网络的前端是多个卷积层和池化层的组合,后端是多个反卷积层的组合。
17.如权利要求16所述的系统,其特征在于,所述全卷积神经网络具体结构为, 第一层,卷积层,卷积核大小为3x3,步长stride为2 ; 第二层,最大池化层,池化区间为2x2,步长stride为2 ; 第三层,卷积层,卷积核大小为3x3,步长Stride为1 ; 第四层,最大池化层,池化区间为2x2,步长stride为2 ; 第五层,卷积层,卷积核大小为3x3,步长Stride为1 ; 第六层,最大池化层,池化区间为2x2,步长stride为2 ; 第七层,卷积层,卷积核大小为3x3,步长stride为1 ; 第八层,卷积层,卷积核大小为3x3,步长stride为1 ; 第九层,卷积层,卷积核大小为3x3,步长stride为1 ; 第十层,反卷积层,卷积核大小为6x6,步长stride为4 ; 第i^一层,反卷积层,卷积核大小为6x6,步长stride为4 ; 第十二层,反卷积层,卷积核大小为6x6,步长stride为1。
18.如权利要求16所述的系统,其特征在于,所述全卷积神经网络还包括一个损耗层,用于计算损耗。
19.如权利要求16所述的系统,其特征在于,在所述卷积层和所述反卷积层之后增加一个非线性响应单元。
20.如权利要求11所述的系统,其特征在于,所述神经网络训练模块采用随机梯度下降法进行训练。
CN201510980543.9A 2015-12-23 2015-12-23 基于全卷积网络人脸五官定位与判别的方法及系统 CN105354565A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510980543.9A CN105354565A (zh) 2015-12-23 2015-12-23 基于全卷积网络人脸五官定位与判别的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510980543.9A CN105354565A (zh) 2015-12-23 2015-12-23 基于全卷积网络人脸五官定位与判别的方法及系统

Publications (1)

Publication Number Publication Date
CN105354565A true CN105354565A (zh) 2016-02-24

Family

ID=55330532

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510980543.9A CN105354565A (zh) 2015-12-23 2015-12-23 基于全卷积网络人脸五官定位与判别的方法及系统

Country Status (1)

Country Link
CN (1) CN105354565A (zh)

Cited By (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106022221A (zh) * 2016-05-09 2016-10-12 腾讯科技(深圳)有限公司 一种图像处理方法及处理系统
CN106203284A (zh) * 2016-06-30 2016-12-07 华中科技大学 基于卷积神经网络和条件随机场的人脸检测方法
CN106202997A (zh) * 2016-06-29 2016-12-07 四川大学 一种基于深度学习的细胞分裂检测方法
CN106295506A (zh) * 2016-07-25 2017-01-04 华南理工大学 一种基于集成卷积神经网络的年龄识别方法
CN106295139A (zh) * 2016-07-29 2017-01-04 姹ゅ钩 一种基于深度卷积神经网络的舌体自诊健康云服务系统
CN106326853A (zh) * 2016-08-19 2017-01-11 厦门美图之家科技有限公司 一种人脸跟踪方法及装置
CN106339591A (zh) * 2016-08-25 2017-01-18 姹ゅ钩 一种基于深度卷积神经网络的预防乳腺癌自助健康云服务系统
CN106339680A (zh) * 2016-08-25 2017-01-18 北京小米移动软件有限公司 人脸关键点定位方法及装置
CN106355573A (zh) * 2016-08-24 2017-01-25 北京小米移动软件有限公司 图片中目标物的定位方法及装置
CN106372390A (zh) * 2016-08-25 2017-02-01 姹ゅ钩 一种基于深度卷积神经网络的预防肺癌自助健康云服务系统
CN106447721A (zh) * 2016-09-12 2017-02-22 北京旷视科技有限公司 图像阴影检测方法和装置
CN106446862A (zh) * 2016-10-11 2017-02-22 厦门美图之家科技有限公司 一种人脸检测方法及系统
CN106529555A (zh) * 2016-11-04 2017-03-22 四川大学 一种基于全卷积网络的dr片肺轮廓提取方法
CN106530305A (zh) * 2016-09-23 2017-03-22 北京市商汤科技开发有限公司 语义分割模型训练和图像分割方法及装置、计算设备
CN106529485A (zh) * 2016-11-16 2017-03-22 北京旷视科技有限公司 用于获取训练数据的方法及装置
CN106530320A (zh) * 2016-09-30 2017-03-22 深圳大学 一种端到端的图像分割处理方法及系统
CN106650743A (zh) * 2016-09-12 2017-05-10 北京旷视科技有限公司 图像强反光检测方法和装置
CN106650690A (zh) * 2016-12-30 2017-05-10 东华大学 基于深度卷积‑反卷积神经网络的夜视图像场景识别方法
CN106780512A (zh) * 2016-11-30 2017-05-31 厦门美图之家科技有限公司 分割图像的方法、应用及计算设备
CN106725341A (zh) * 2017-01-09 2017-05-31 燕山大学 一种增强型舌诊系统
CN106844442A (zh) * 2016-12-16 2017-06-13 广东顺德中山大学卡内基梅隆大学国际联合研究院 基于fcn特征提取的多模态循环神经网络图像描述方法
CN106920243A (zh) * 2017-03-09 2017-07-04 桂林电子科技大学 改进的全卷积神经网络的陶瓷材质件序列图像分割方法
CN106960199A (zh) * 2017-03-30 2017-07-18 博奥生物集团有限公司 一种真彩色眼象图白睛区域的完整提取方法
CN107066916A (zh) * 2016-10-26 2017-08-18 中国科学院自动化研究所 基于反卷积神经网络的场景语义分割方法
CN107066969A (zh) * 2017-04-12 2017-08-18 南京维睛视空信息科技有限公司 一种人脸识别方法
CN107123083A (zh) * 2017-05-02 2017-09-01 中国科学技术大学 人脸编辑方法
CN107239797A (zh) * 2017-05-23 2017-10-10 西安电子科技大学 基于全卷积神经网络的极化sar地物分类方法
CN107247955A (zh) * 2016-07-29 2017-10-13 竹间智能科技(上海)有限公司 配件识别方法及装置
CN107274445A (zh) * 2017-05-19 2017-10-20 华中科技大学 一种图像深度估计方法和系统
CN107305622A (zh) * 2016-04-15 2017-10-31 北京市商汤科技开发有限公司 一种人脸五官识别方法、装置及系统
CN107871098A (zh) * 2016-09-23 2018-04-03 北京眼神科技有限公司 人脸特征点的获取方法和装置
CN107871099A (zh) * 2016-09-23 2018-04-03 北京眼神科技有限公司 人脸定位方法和装置
CN107968962A (zh) * 2017-12-12 2018-04-27 华中科技大学 一种基于深度学习的两帧不相邻图像的视频生成方法
CN108062543A (zh) * 2018-01-16 2018-05-22 中车工业研究院有限公司 一种面部识别方法及装置
CN108229271A (zh) * 2017-01-23 2018-06-29 北京市商汤科技开发有限公司 解译遥感图像的方法、装置和电子设备
CN108229293A (zh) * 2017-08-09 2018-06-29 北京市商汤科技开发有限公司 人脸图像处理方法、装置和电子设备
WO2018121737A1 (zh) * 2016-12-30 2018-07-05 北京市商汤科技开发有限公司 关键点预测、网络训练及图像处理方法和装置、电子设备
CN108256440A (zh) * 2017-12-27 2018-07-06 长沙学院 一种眉毛图像分割方法和系统
CN108268822A (zh) * 2016-12-30 2018-07-10 深圳光启合众科技有限公司 人脸识别方法、装置及机器人
CN108665461A (zh) * 2018-05-09 2018-10-16 电子科技大学 一种基于fcn和迭代声影校正的乳腺超声图像分割方法
CN109063626A (zh) * 2018-07-27 2018-12-21 深圳市践科技有限公司 动态人脸识别方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6754380B1 (en) * 2003-02-14 2004-06-22 The University Of Chicago Method of training massive training artificial neural networks (MTANN) for the detection of abnormalities in medical images
CN103824055A (zh) * 2014-02-17 2014-05-28 北京旷视科技有限公司 一种基于级联神经网络的人脸识别方法
CN103984959A (zh) * 2014-05-26 2014-08-13 中国科学院自动化研究所 一种基于数据与任务驱动的图像分类方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6754380B1 (en) * 2003-02-14 2004-06-22 The University Of Chicago Method of training massive training artificial neural networks (MTANN) for the detection of abnormalities in medical images
CN103824055A (zh) * 2014-02-17 2014-05-28 北京旷视科技有限公司 一种基于级联神经网络的人脸识别方法
CN103984959A (zh) * 2014-05-26 2014-08-13 中国科学院自动化研究所 一种基于数据与任务驱动的图像分类方法

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
HYEONWOO NOH等: "Learning Deconvolution Network for Semantic Segmentation", 《PROCEEDINGS OF THE 2015 IEEE INTERNATIONAL CONFERENCE ON COMPUTER VISION(ICCV)》 *
JONATHAN LONG等: "Fully Convolutional Networks for Semantic Segmentation", 《2015 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION(CNPR)》 *
LILIANG ZHANG等: "End-to-End Photo-Sketch Generation via Fully Convolutional Representation Learning", 《PROCEEDINGS OF THE 5TH ACM ON INTERNATIONAL CONFERENCE ON MULTIMEDIA RETRIEVAL》 *
SHUAI ZHENG等: "Conditional Random Fields as Recurrent Neural Networks", 《RESEARCHGATE》 *
ZHUJIN LIANG等: "Unconstrained Facial Landmark Localization with Backbone-Branches Fully-Convolutional Networks", 《COMPUTER SCIENCE》 *
李海彦: "基于仿射变换的多姿态人脸矫正与识别", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
杨海燕等: "基于并行卷积神经网络的人脸关键点定位方法研究", 《计算机应用研究》 *

Cited By (56)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107305622A (zh) * 2016-04-15 2017-10-31 北京市商汤科技开发有限公司 一种人脸五官识别方法、装置及系统
CN106022221A (zh) * 2016-05-09 2016-10-12 腾讯科技(深圳)有限公司 一种图像处理方法及处理系统
CN106202997A (zh) * 2016-06-29 2016-12-07 四川大学 一种基于深度学习的细胞分裂检测方法
CN106202997B (zh) * 2016-06-29 2018-10-30 四川大学 一种基于深度学习的细胞分裂检测方法
CN106203284A (zh) * 2016-06-30 2016-12-07 华中科技大学 基于卷积神经网络和条件随机场的人脸检测方法
CN106203284B (zh) * 2016-06-30 2019-05-14 华中科技大学 基于卷积神经网络和条件随机场的人脸检测方法
CN106295506A (zh) * 2016-07-25 2017-01-04 华南理工大学 一种基于集成卷积神经网络的年龄识别方法
CN107247955A (zh) * 2016-07-29 2017-10-13 竹间智能科技(上海)有限公司 配件识别方法及装置
CN106295139B (zh) * 2016-07-29 2019-04-02 汤一平 一种基于深度卷积神经网络的舌体自诊健康云服务系统
CN106295139A (zh) * 2016-07-29 2017-01-04 姹ゅ钩 一种基于深度卷积神经网络的舌体自诊健康云服务系统
CN106326853A (zh) * 2016-08-19 2017-01-11 厦门美图之家科技有限公司 一种人脸跟踪方法及装置
CN106355573A (zh) * 2016-08-24 2017-01-25 北京小米移动软件有限公司 图片中目标物的定位方法及装置
CN106355573B (zh) * 2016-08-24 2019-10-25 北京小米移动软件有限公司 图片中目标物的定位方法及装置
CN106372390A (zh) * 2016-08-25 2017-02-01 姹ゅ钩 一种基于深度卷积神经网络的预防肺癌自助健康云服务系统
CN106339591B (zh) * 2016-08-25 2019-04-02 汤一平 一种基于深度卷积神经网络的预防乳腺癌自助健康云服务系统
CN106372390B (zh) * 2016-08-25 2019-04-02 汤一平 一种基于深度卷积神经网络的预防肺癌自助健康云服务系统
CN106339591A (zh) * 2016-08-25 2017-01-18 姹ゅ钩 一种基于深度卷积神经网络的预防乳腺癌自助健康云服务系统
CN106339680B (zh) * 2016-08-25 2019-07-23 北京小米移动软件有限公司 人脸关键点定位方法及装置
CN106339680A (zh) * 2016-08-25 2017-01-18 北京小米移动软件有限公司 人脸关键点定位方法及装置
CN106650743A (zh) * 2016-09-12 2017-05-10 北京旷视科技有限公司 图像强反光检测方法和装置
CN106447721A (zh) * 2016-09-12 2017-02-22 北京旷视科技有限公司 图像阴影检测方法和装置
CN106530305A (zh) * 2016-09-23 2017-03-22 北京市商汤科技开发有限公司 语义分割模型训练和图像分割方法及装置、计算设备
CN107871099A (zh) * 2016-09-23 2018-04-03 北京眼神科技有限公司 人脸定位方法和装置
CN107871098A (zh) * 2016-09-23 2018-04-03 北京眼神科技有限公司 人脸特征点的获取方法和装置
CN106530305B (zh) * 2016-09-23 2019-09-13 北京市商汤科技开发有限公司 语义分割模型训练和图像分割方法及装置、计算设备
CN106530320A (zh) * 2016-09-30 2017-03-22 深圳大学 一种端到端的图像分割处理方法及系统
CN106446862A (zh) * 2016-10-11 2017-02-22 厦门美图之家科技有限公司 一种人脸检测方法及系统
CN107066916A (zh) * 2016-10-26 2017-08-18 中国科学院自动化研究所 基于反卷积神经网络的场景语义分割方法
CN107066916B (zh) * 2016-10-26 2020-02-07 中国科学院自动化研究所 基于反卷积神经网络的场景语义分割方法
CN106529555A (zh) * 2016-11-04 2017-03-22 四川大学 一种基于全卷积网络的dr片肺轮廓提取方法
CN106529555B (zh) * 2016-11-04 2019-12-06 四川大学 一种基于全卷积网络的dr片肺轮廓提取方法
CN106529485A (zh) * 2016-11-16 2017-03-22 北京旷视科技有限公司 用于获取训练数据的方法及装置
CN106780512B (zh) * 2016-11-30 2020-01-17 厦门美图之家科技有限公司 分割图像的方法、应用及计算设备
CN106780512A (zh) * 2016-11-30 2017-05-31 厦门美图之家科技有限公司 分割图像的方法、应用及计算设备
CN106844442A (zh) * 2016-12-16 2017-06-13 广东顺德中山大学卡内基梅隆大学国际联合研究院 基于fcn特征提取的多模态循环神经网络图像描述方法
CN106650690A (zh) * 2016-12-30 2017-05-10 东华大学 基于深度卷积‑反卷积神经网络的夜视图像场景识别方法
WO2018121737A1 (zh) * 2016-12-30 2018-07-05 北京市商汤科技开发有限公司 关键点预测、网络训练及图像处理方法和装置、电子设备
CN108268822A (zh) * 2016-12-30 2018-07-10 深圳光启合众科技有限公司 人脸识别方法、装置及机器人
CN106725341A (zh) * 2017-01-09 2017-05-31 燕山大学 一种增强型舌诊系统
CN108229271A (zh) * 2017-01-23 2018-06-29 北京市商汤科技开发有限公司 解译遥感图像的方法、装置和电子设备
CN106920243B (zh) * 2017-03-09 2019-12-17 桂林电子科技大学 改进的全卷积神经网络的陶瓷材质件序列图像分割方法
CN106920243A (zh) * 2017-03-09 2017-07-04 桂林电子科技大学 改进的全卷积神经网络的陶瓷材质件序列图像分割方法
CN106960199A (zh) * 2017-03-30 2017-07-18 博奥生物集团有限公司 一种真彩色眼象图白睛区域的完整提取方法
CN107066969A (zh) * 2017-04-12 2017-08-18 南京维睛视空信息科技有限公司 一种人脸识别方法
CN107123083B (zh) * 2017-05-02 2019-08-27 中国科学技术大学 人脸编辑方法
CN107123083A (zh) * 2017-05-02 2017-09-01 中国科学技术大学 人脸编辑方法
CN107274445A (zh) * 2017-05-19 2017-10-20 华中科技大学 一种图像深度估计方法和系统
CN107239797A (zh) * 2017-05-23 2017-10-10 西安电子科技大学 基于全卷积神经网络的极化sar地物分类方法
WO2019029486A1 (zh) * 2017-08-09 2019-02-14 北京市商汤科技开发有限公司 人脸图像处理方法、装置和电子设备
CN108229293A (zh) * 2017-08-09 2018-06-29 北京市商汤科技开发有限公司 人脸图像处理方法、装置和电子设备
CN107968962A (zh) * 2017-12-12 2018-04-27 华中科技大学 一种基于深度学习的两帧不相邻图像的视频生成方法
CN108256440A (zh) * 2017-12-27 2018-07-06 长沙学院 一种眉毛图像分割方法和系统
CN108062543A (zh) * 2018-01-16 2018-05-22 中车工业研究院有限公司 一种面部识别方法及装置
CN108665461A (zh) * 2018-05-09 2018-10-16 电子科技大学 一种基于fcn和迭代声影校正的乳腺超声图像分割方法
CN108665461B (zh) * 2018-05-09 2019-03-12 电子科技大学 一种基于fcn和迭代声影校正的乳腺超声图像分割方法
CN109063626A (zh) * 2018-07-27 2018-12-21 深圳市践科技有限公司 动态人脸识别方法和装置

Similar Documents

Publication Publication Date Title
Souly et al. Semi supervised semantic segmentation using generative adversarial network
US9436895B1 (en) Method for determining similarity of objects represented in images
Bazzani et al. Self-taught object localization with deep networks
Mohandes et al. Arabic sign language recognition using the leap motion controller
CN103984959B (zh) 一种基于数据与任务驱动的图像分类方法
Yang et al. Learning and transferring deep joint spectral–spatial features for hyperspectral classification
Kae et al. Augmenting CRFs with Boltzmann machine shape priors for image labeling
Neubert et al. Superpixel-based appearance change prediction for long-term navigation across seasons
Kang et al. Extended random walker-based classification of hyperspectral images
CN103824050B (zh) 一种基于级联回归的人脸关键点定位方法
CN106504233B (zh) 基于Faster R-CNN的无人机巡检图像电力小部件识别方法及系统
CN104143079B (zh) 人脸属性识别的方法和系统
Jain et al. Hybrid deep neural networks for face emotion recognition
KR20160096460A (ko) 복수의 분류기를 포함하는 딥 러닝 기반 인식 시스템 및 그 제어 방법
CN106157319B (zh) 基于卷积神经网络的区域和像素级融合的显著性检测方法
CN105069400B (zh) 基于栈式稀疏自编码的人脸图像性别识别系统
CN106096561B (zh) 基于图像块深度学习特征的红外行人检测方法
Zhang et al. A multilevel point-cluster-based discriminative feature for ALS point cloud classification
Lu et al. Application of an incremental SVM algorithm for on-line human recognition from video surveillance using texture and color features
CN105825511B (zh) 一种基于深度学习的图片背景清晰度检测方法
CN105787458B (zh) 基于人工设计特征和深度学习特征自适应融合的红外行为识别方法
CN105956560B (zh) 一种基于池化多尺度深度卷积特征的车型识别方法
CN106096538B (zh) 基于定序神经网络模型的人脸识别方法及装置
CN104517104B (zh) 一种基于监控场景下的人脸识别方法及系统
CN104992142A (zh) 一种基于深度学习和属性学习相结合的行人识别方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination