CN107704817B - 一种动物面部关键点的检测方法 - Google Patents
一种动物面部关键点的检测方法 Download PDFInfo
- Publication number
- CN107704817B CN107704817B CN201710897822.8A CN201710897822A CN107704817B CN 107704817 B CN107704817 B CN 107704817B CN 201710897822 A CN201710897822 A CN 201710897822A CN 107704817 B CN107704817 B CN 107704817B
- Authority
- CN
- China
- Prior art keywords
- bbox
- key point
- animal face
- network
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
- G06V40/171—Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
- G06V40/165—Detection; Localisation; Normalisation using facial parts and geometric relationships
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Geometry (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明公开一种动物面部关键点的检测方法,包括:设置网络结构,网络分为两段,第一段回归bbox,得到输入动物面部图像更精确的面部框;第二部分回归动物面部关键点,输入为动物面部图像和根据bbox再次截取的动物面部图像,既考虑了动物面部的上下文信息,又关注了动物面部重点区域,因此可以获得更精确的关键点检测结果。另外,在训练网络时采用了分阶段的训练方式,第一阶段用旋转角度和平移幅度都比较大的增广样本做训练,第二阶段用旋转角度和平移幅度较小的增广样本做训练。本发明提供的技术方案模型小、速度快、需要手工标定的样本少,能够准确地检测出动物面部的关键点,满足用户对实时萌宠美妆的需求。
Description
技术领域
本发明涉及数字图像处理技术领域,尤其涉及一种动物面部关键点的检测方法。
背景技术
近年来,自拍美妆受到越来越多的关注,而对萌宠美妆的需求也展露头角。与人脸美妆依赖于面部关键点的精确定位一样,萌宠美妆也对动物面部关键点有很强的依赖性。所以,探索一种快速准确的动物面部关键定位算法至关重要。另外,动物面部关键点定位点算法研究,也可用于动物面部表情识别,疼痛识别等方面。
目前,关于动物面部关键点定位的算法在学术圈和工业界都比较少。原因是相对于人脸关键点而言,动物脸关键点的标注样本比较少,缺乏公开的评测数据库等。目前,用的较多的方法有以下两种:(1)学习插值特征,利用回归的方式定位动物面部关键点;(2)基于深度学习的方法,利用动物面部与人脸的结构相似性,学习一个从动物面部到人脸的映射网络(AlexNet前5个卷积模块),从而能够利用人脸关键定定位的模型(5个卷积模块)来微调动物面部关键点定位点模型。
从上述的方法中来看,方法一依赖于手工特征,特征比较简单,不可避免地对初始化敏感;方法二先用AlexNet前五个卷积模块来将动物面部投影到人脸空间,该部分模型大小为60M左右,模型过大。
发明内容
本发明旨在提供一种动物面部关键点的检测方法,该算法模型小、速度快、需要手工标定的样本少,并且能够准确地检测出动物面部的关键点,从而满足用户对实时萌宠美妆的需求。
为达到上述目的,本发明采用的技术方案如下:
一种动物面部关键点的检测方法,包括:设置网络结构,所述网络结构包括bbox回归网络和关键点定位网络;对所述网络结构进行级联训练;根据进行级联训练后的网络结构,对输入的动物面部样本进行bbox和关键点的联合回归,获取最终的关键点检测结果。
优选地,所述bbox回归网络和所述关键点定位网络均包括若干个卷积模块和全联接层。
优选地,所述对所述网络结构进行级联训练的方法包括:将获取的训练样本做第一角度的旋转和第一幅度的平移增广,得到第一阶段训练样本,并用所述第一阶段训练样本训练所述网络结构;将所述训练样本做第二角度的旋转和第二幅度的平移增广,得到第二阶段训练样本,并用所述第二阶段训练样本调整所述网络结构;所述第一角度大于所述第二角度;所述第一幅度大于所述第二幅度。
优选地,所述第一角度的范围为-40°~40°,所述第一幅度的范围为-0.4*dis~0.4*dis;所述第二角度的范围为-20°~20°,所述第二幅度的范围为-0.2*dis~0.2*dis;其中,dis表示动物双眼之间的距离。
优选地,所述对输入的动物面部样本进行bbox和关键点的联合回归,获取最终的关键点检测结果的方法包括:所述输入的动物面部样本包括动物面部图像和动物面部关键点坐标位置;将所述动物面部图像做预定倍数下的采样,得到第一图像;将所述第一图像输入进行级联训练后的bbox回归网络,得到预测的bbox;根据所述预测的bbox对所述动物面部图像进行剪裁和缩放,获取第二图像,所述第二图像的长与所述动物面部图像的长相等,所述第二图像的宽与所述动物面部图像的宽相等;将所述第二图像和所述动物面部图像分别输入进行级联训练后的关键点定位网络,获取两个关键点预测结果;将所述两个关键点预测结果取平均值,获取最终的关键点检测结果。
优选地,所述对输入的动物面部样本进行bbox和关键点的联合回归,获取最终的关键点检测结果的目标为最小化式(1):
alpha*Loss(predit_bbox,true_bbox)+beta*Loss(predit_landmark,true_landmark) (1)
其中,predit_bbox为所述第二图像的bbox,predit_landmark为所述最终的关键点检测结果;true_bbox为目标bbox,true_landmark为目标关键点;alpha,beta为可动态调节的超参数;Loss()为损失函数。
优选地,所述损失函数为L2 Loss,或者为平方根误差。
进一步地,所述对输入的动物面部样本进行bbox和关键点的联合回归,获取最终的关键点检测结果的方法还包括:分别在所述关键点定位网络的每个卷积模块后接一个线性回归层,得到第二关键点定位网络;根据所述第二关键点定位网络获取关键点预测结果的中间值;对所述关键点预测结果的中间值进行监督。
本发明实施例提供的动物面部关键点的检测方法,通过设计bbox回归网络和关键点定位网络,上述两个网络均属于简单的深度神经网络,具有模型小、速度快的优点;本发明采用级联训练方法,在保证关键点定位精度的同时,极大地降低了训练样本的标注成本;本发明同时回归bbox和关键点坐标,在一定程度上削弱了定位算法对bbox的依赖,并且利用回归的bbox框对输入图片做了进一步的裁剪和缩放,使得定位网络更关注动物物面部,有利于提升关键点的定位精度;本发明在关键点定位网络部分采用了对误差的由粗到精的约束,利于提升关键点的定位精度,同时也可以在训练时加快模型收敛。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下对本发明进行进一步详细说明。
步骤101,设置网络结构,所述网络结构包括bbox回归网络和关键点定位网络;
本实施例中的bbox回归网络,由若干卷积模块和全联接层构成,主要目标是回归一个更适合关键点定位的bbox,输出值为矩形框的左上角和右下角点坐标;关键点定位网络,由若干卷积模块和全联接层构成,主要目标是预测动物面部关键点的坐标位置。
步骤102,对所述网络结构进行级联训练;
具体方法包括:将获取的训练样本做第一角度的旋转和第一幅度的平移增广,得到第一阶段训练样本,并用所述第一阶段训练样本训练所述网络结构;将所述训练样本做第二角度的旋转和第二幅度的平移增广,得到第二阶段训练样本,并用所述第二阶段训练样本调整(fine-tune)所述网络结构;所述第一角度大于所述第二角度;所述第一幅度大于所述第二幅度。所述第一角度的范围为-0.4*dis~0.4*dis,所述第一幅度的范围为-40°~40°;所述第二角度的范围为-0.2*dis~0.2*dis,所述第二幅度的范围为-20°~20°;其中,dis表示动物双眼之间的距离。采用上述数值所获取的第一阶段训练样本来训练网络结构,使得该网络结构可以覆盖较大范围内的旋转和平移变换。当然,上述训练样本增广的方法也可以采用其它的平移、旋转范围,以及其它的级联次数,可根据具体需要设置。
步骤103,根据进行级联训练后的网络结构,对输入的动物面部样本进行bbox和关键点的联合回归,获取最终的关键点检测结果。
具体方法为:(1)所述输入的动物面部样本{x,y}包括动物面部图像x和动物面部关键点坐标位置y;(2)将所述动物面部图像x做预定倍数下的采样,例如5倍,得到第一图像x1;(3)将所述第一图像x1输入进行级联训练后的bbox回归网络,得到一个四维数组(xmin,ymin,xmax,ymax),其中,(xmin,ymin)和(xmax,ymax)分别对应预测的bbox的左上角顶点坐标值和右下角顶点坐标值;(4)根据所述预测的bbox对所述动物面部图像x进行剪裁和缩放,获取第二图像x2,所述第二图像x2的长与所述动物面部图像x的长相等,所述第二图像x2的宽与所述动物面部图像x的宽相等;(5)将所述第二图像x2和所述动物面部图像x分别输入进行级联训练后的关键点定位网络,获取两个关键点预测结果;(6)将所述两个关键点预测结果取平均值,获取最终的关键点检测结果。
优选地,所述对输入的动物面部样本{x,y}进行bbox和关键点的联合回归,获取最终的关键点检测结果的目标为最小化式(1):
alpha*Loss(predit_bbox,true_bbox)+beta*Loss(predit_landmark,true_landmark) (1)
其中,predit_bbox为所述第二图像的bbox,predit_landmark为所述最终的关键点检测结果;true_bbox为目标bbox,true_landmark为目标关键点;alpha,beta为可动态调节的超参数;Loss()为损失函数。
本实施例中,进一步地,所述对输入的动物面部样本进行bbox和关键点的联合回归,获取最终的关键点检测结果的方法还包括:分别在所述关键点定位网络的每个卷积模块后接一个线性回归层,得到第二关键点定位网络;根据所述第二关键点定位网络获取关键点预测结果的中间值,例如,y1,y2,y3;对所述关键点预测结果的中间值y1,y2,y3进行监督。具体地,上述对所述关键点预测结果的中间值进行监督的方法包括:最小化式(2):
其中,constrainLoss(a,b)=max(0,a-(1-θ)b),θ可动态调节的超参数,yi为关键点预测结果的中间值。
当然,constrainLoss()也可以采用其它的形式,例如a-b<gamma,a/b<gamma等,可根据需要进行具体设置。
本发明实施例提供的动物面部关键点的检测方法,通过设计bbox回归网络和关键点定位网络,上述两个网络均属于简单的深度神经网络,具有模型小、速度快的优点;本发明采用级联训练方法,在保证关键点定位精度的同时,极大地降低了训练样本的标注成本;本发明同时回归bbox和关键点坐标,在一定程度上削弱了定位算法对bbox的依赖,并且利用回归的bbox框对输入图片做了进一步的裁剪和缩放,使得定位网络更关注动物物面部,有利于提升关键点的定位精度;本发明在关键点定位网络部分采用了对误差的由粗到精的约束,利于提升关键点的定位精度,同时也可以在训练时加快模型收敛。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。
Claims (4)
1.一种动物面部关键点的检测方法,其特征在于,包括:
设置网络结构,所述网络结构包括bbox回归网络和关键点定位网络;
对所述网络结构进行级联训练;
根据进行级联训练后的网络结构,对输入的动物面部样本进行bbox和关键点的联合回归,获取最终的关键点检测结果;
所述bbox回归网络和所述关键点定位网络均包括若干个卷积模块和全联接层;
所述对所述网络结构进行级联训练的方法包括:
将获取的训练样本做第一角度的旋转和第一幅度的平移增广,得到第一阶段训练样本,并用所述第一阶段训练样本训练所述网络结构;
将所述训练样本做第二角度的旋转和第二幅度的平移增广,得到第二阶段训练样本,并用所述第二阶段训练样本调整所述网络结构;
所述第一角度大于所述第二角度;所述第一幅度大于所述第二幅度;
所述第一角度的范围为-40°~40°,所述第一幅度的范围为-0.4*dis~0.4*dis;所述第二角度的范围为-20°~20°,所述第二幅度的范围为-0.2*dis~0.2*dis;其中,dis表示动物双眼之间的距离;
其中,所述对输入的动物面部样本进行bbox和关键点的联合回归,获取最终的关键点检测结果的方法包括:
所述输入的动物面部样本包括动物面部图像和动物面部关键点坐标位置;将所述动物面部图像做预定倍数下的采样,得到第一图像;
将所述第一图像输入进行级联训练后的bbox回归网络,得到预测的bbox;
根据所述预测的bbox对所述动物面部图像进行剪裁和缩放,获取第二图像,所述第二图像的长与所述动物面部图像的长相等,所述第二图像的宽与所述动物面部图像的宽相等;
将所述第二图像和所述动物面部图像分别输入进行级联训练后的关键点定位网络,获取两个关键点预测结果;
将所述两个关键点预测结果取平均值,获取最终的关键点检测结果。
2.根据权利要求1所述的动物面部关键点的检测方法,其特征在于,所述对输入的动物面部样本进行bbox和关键点的联合回归,获取最终的关键点检测结果的目标为最小化式(1):
alpha*Loss(predit_bbox,true_bbox)+beta*Loss(predit_landmark,true_landmark) (1)
其中,predit_bbox为所述第二图像的bbox,predit_landmark为所述最终的关键点检测结果;true_bbox为目标bbox,true_landmark为目标关键点;alpha,beta为可动态调节的超参数;Loss()为损失函数。
3.根据权利要求2所述的动物面部关键点的检测方法,其特征在于,所述损失函数为L2Loss,或者为平方根误差。
4.根据权利要求3所述的动物面部关键点的检测方法,其特征在于,所述对输入的动物面部样本进行bbox和关键点的联合回归,获取最终的关键点检测结果的方法还包括:
分别在所述关键点定位网络的每个卷积模块后接一个线性回归层,得到第二关键点定位网络;
根据所述第二关键点定位网络获取关键点预测结果的中间值;
对所述关键点预测结果的中间值进行监督。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710897822.8A CN107704817B (zh) | 2017-09-28 | 2017-09-28 | 一种动物面部关键点的检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710897822.8A CN107704817B (zh) | 2017-09-28 | 2017-09-28 | 一种动物面部关键点的检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107704817A CN107704817A (zh) | 2018-02-16 |
CN107704817B true CN107704817B (zh) | 2021-06-25 |
Family
ID=61175362
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710897822.8A Active CN107704817B (zh) | 2017-09-28 | 2017-09-28 | 一种动物面部关键点的检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107704817B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108573226B (zh) * | 2018-04-08 | 2021-10-08 | 浙江大学 | 基于级联姿势回归的果蝇幼虫体节关键点定位方法 |
CN109146845A (zh) * | 2018-07-16 | 2019-01-04 | 中南大学 | 基于卷积神经网络的头颅影像标志点检测方法 |
CN110795975B (zh) * | 2018-08-03 | 2023-07-21 | 浙江宇视科技有限公司 | 人脸误检优化方法及装置 |
CN111291593B (zh) * | 2018-12-06 | 2023-04-18 | 成都品果科技有限公司 | 一种检测人体姿态的方法 |
CN111382612A (zh) * | 2018-12-28 | 2020-07-07 | 北京市商汤科技开发有限公司 | 动物面部检测方法及装置 |
CN111695405B (zh) * | 2018-12-28 | 2023-12-12 | 北京旷视科技有限公司 | 一种狗脸特征点的检测方法、装置、系统及存储介质 |
CN110610125A (zh) * | 2019-07-31 | 2019-12-24 | 平安科技(深圳)有限公司 | 基于神经网络的牛脸识别方法、装置、设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105981041A (zh) * | 2014-05-29 | 2016-09-28 | 北京旷视科技有限公司 | 使用粗到细级联神经网络的面部关键点定位 |
WO2017044550A1 (en) * | 2015-09-11 | 2017-03-16 | Intel Corporation | A real-time multiple vehicle detection and tracking |
CN106778584A (zh) * | 2016-12-08 | 2017-05-31 | 南京邮电大学 | 一种基于深层特征与浅层特征融合的人脸年龄估计方法 |
CN106778531A (zh) * | 2016-11-25 | 2017-05-31 | 北京小米移动软件有限公司 | 人脸定位方法及装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10614289B2 (en) * | 2010-06-07 | 2020-04-07 | Affectiva, Inc. | Facial tracking with classifiers |
US9881234B2 (en) * | 2015-11-25 | 2018-01-30 | Baidu Usa Llc. | Systems and methods for end-to-end object detection |
-
2017
- 2017-09-28 CN CN201710897822.8A patent/CN107704817B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105981041A (zh) * | 2014-05-29 | 2016-09-28 | 北京旷视科技有限公司 | 使用粗到细级联神经网络的面部关键点定位 |
WO2017044550A1 (en) * | 2015-09-11 | 2017-03-16 | Intel Corporation | A real-time multiple vehicle detection and tracking |
CN106778531A (zh) * | 2016-11-25 | 2017-05-31 | 北京小米移动软件有限公司 | 人脸定位方法及装置 |
CN106778584A (zh) * | 2016-12-08 | 2017-05-31 | 南京邮电大学 | 一种基于深层特征与浅层特征融合的人脸年龄估计方法 |
Non-Patent Citations (2)
Title |
---|
DeepFinger: A Cascade Convolutional Neuron Network Approach to Finger Key Point Detection in Egocentric Vision with Mobile Camera;Yichao Huang;《2015 IEEE International Conference on Systems》;20160114;第2945-2946页第三部分,图2 * |
L2,1-based regression and prediction accumulation across views for robust facial landmark detection;Brais Martinez;《Image and Vision Computing》;20160331;第47卷;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN107704817A (zh) | 2018-02-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107704817B (zh) | 一种动物面部关键点的检测方法 | |
CN103824050B (zh) | 一种基于级联回归的人脸关键点定位方法 | |
CN106599830B (zh) | 人脸关键点定位方法及装置 | |
CN110555408B (zh) | 一种基于自适应映射关系的单摄像头实时三维人体姿态检测方法 | |
CN107292925A (zh) | 基于Kinect深度相机测量方法 | |
CN104821010A (zh) | 基于双目视觉的人手三维信息实时提取方法及系统 | |
CN106292732A (zh) | 基于声源定位和人脸检测的智能机器人转动方法 | |
CN104881029B (zh) | 基于一点ransac和fast算法的移动机器人导航方法 | |
CN103324938A (zh) | 训练姿态分类器及物体分类器、物体检测的方法及装置 | |
CN104794439A (zh) | 基于多相机的准正面人脸图像实时优选方法及系统 | |
CN107063190B (zh) | 面向定标面阵相机影像的位姿高精度直接估计方法 | |
CN110135277B (zh) | 一种基于卷积神经网络的人体行为识别方法 | |
CN106407978B (zh) | 一种结合似物度的无约束视频中显著物体检测方法 | |
Manikandan et al. | Hand gesture detection and conversion to speech and text | |
Chen et al. | Multiple object tracking using edge multi-channel gradient model with ORB feature | |
Ikram et al. | Real time hand gesture recognition using leap motion controller based on CNN-SVM architechture | |
CN110288026A (zh) | 一种基于度量关系图学习的图像分割方法及装置 | |
CN113536926A (zh) | 基于距离向量和多角度自适应网络的人体动作识别方法 | |
Wu et al. | An approach to robot SLAM based on incremental appearance learning with omnidirectional vision | |
Kacete et al. | Head pose free 3D gaze estimation using RGB-D camera | |
Kang et al. | Improving accuracy of VI-SLAM with fish-eye camera based on biases of map points | |
Wang et al. | A Pointer Instrument Reading Approach Based On Mask R-CNN Key Points Detection | |
Sarsenov et al. | Detection of Objects and Trajectories in Real-time using Deep Learning by a Controlled Robot. | |
Zhang et al. | Infrared image mosaic based on pulse coupled neural network | |
Wang | A spatio-temporal attention fusion model for students behaviour recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |