CN107704817B

CN107704817B - 一种动物面部关键点的检测方法

Info

Publication number: CN107704817B
Application number: CN201710897822.8A
Authority: CN
Inventors: 陈丹
Original assignee: Chengdu Pinguo Technology Co Ltd
Current assignee: Chengdu Pinguo Technology Co Ltd
Priority date: 2017-09-28
Filing date: 2017-09-28
Publication date: 2021-06-25
Anticipated expiration: 2037-09-28
Also published as: CN107704817A

Abstract

本发明公开一种动物面部关键点的检测方法，包括：设置网络结构，网络分为两段，第一段回归bbox，得到输入动物面部图像更精确的面部框；第二部分回归动物面部关键点，输入为动物面部图像和根据bbox再次截取的动物面部图像，既考虑了动物面部的上下文信息，又关注了动物面部重点区域，因此可以获得更精确的关键点检测结果。另外，在训练网络时采用了分阶段的训练方式，第一阶段用旋转角度和平移幅度都比较大的增广样本做训练，第二阶段用旋转角度和平移幅度较小的增广样本做训练。本发明提供的技术方案模型小、速度快、需要手工标定的样本少，能够准确地检测出动物面部的关键点，满足用户对实时萌宠美妆的需求。

Description

一种动物面部关键点的检测方法

技术领域

本发明涉及数字图像处理技术领域，尤其涉及一种动物面部关键点的检测方法。

背景技术

近年来，自拍美妆受到越来越多的关注，而对萌宠美妆的需求也展露头角。与人脸美妆依赖于面部关键点的精确定位一样，萌宠美妆也对动物面部关键点有很强的依赖性。所以，探索一种快速准确的动物面部关键定位算法至关重要。另外，动物面部关键点定位点算法研究，也可用于动物面部表情识别，疼痛识别等方面。

目前，关于动物面部关键点定位的算法在学术圈和工业界都比较少。原因是相对于人脸关键点而言，动物脸关键点的标注样本比较少，缺乏公开的评测数据库等。目前，用的较多的方法有以下两种:(1)学习插值特征，利用回归的方式定位动物面部关键点；(2)基于深度学习的方法，利用动物面部与人脸的结构相似性，学习一个从动物面部到人脸的映射网络(AlexNet前5个卷积模块)，从而能够利用人脸关键定定位的模型(5个卷积模块)来微调动物面部关键点定位点模型。

从上述的方法中来看，方法一依赖于手工特征，特征比较简单，不可避免地对初始化敏感；方法二先用AlexNet前五个卷积模块来将动物面部投影到人脸空间，该部分模型大小为60M左右，模型过大。

发明内容

本发明旨在提供一种动物面部关键点的检测方法，该算法模型小、速度快、需要手工标定的样本少，并且能够准确地检测出动物面部的关键点，从而满足用户对实时萌宠美妆的需求。

为达到上述目的，本发明采用的技术方案如下：

一种动物面部关键点的检测方法，包括：设置网络结构，所述网络结构包括bbox回归网络和关键点定位网络；对所述网络结构进行级联训练；根据进行级联训练后的网络结构，对输入的动物面部样本进行bbox和关键点的联合回归，获取最终的关键点检测结果。

优选地，所述bbox回归网络和所述关键点定位网络均包括若干个卷积模块和全联接层。

优选地，所述对所述网络结构进行级联训练的方法包括：将获取的训练样本做第一角度的旋转和第一幅度的平移增广，得到第一阶段训练样本，并用所述第一阶段训练样本训练所述网络结构；将所述训练样本做第二角度的旋转和第二幅度的平移增广，得到第二阶段训练样本，并用所述第二阶段训练样本调整所述网络结构；所述第一角度大于所述第二角度；所述第一幅度大于所述第二幅度。

优选地，所述第一角度的范围为-40°～40°，所述第一幅度的范围为-0.4*dis～0.4*dis；所述第二角度的范围为-20°～20°，所述第二幅度的范围为-0.2*dis～0.2*dis；其中，dis表示动物双眼之间的距离。

优选地，所述对输入的动物面部样本进行bbox和关键点的联合回归，获取最终的关键点检测结果的方法包括：所述输入的动物面部样本包括动物面部图像和动物面部关键点坐标位置；将所述动物面部图像做预定倍数下的采样，得到第一图像；将所述第一图像输入进行级联训练后的bbox回归网络，得到预测的bbox；根据所述预测的bbox对所述动物面部图像进行剪裁和缩放，获取第二图像，所述第二图像的长与所述动物面部图像的长相等，所述第二图像的宽与所述动物面部图像的宽相等；将所述第二图像和所述动物面部图像分别输入进行级联训练后的关键点定位网络，获取两个关键点预测结果；将所述两个关键点预测结果取平均值，获取最终的关键点检测结果。

优选地，所述对输入的动物面部样本进行bbox和关键点的联合回归，获取最终的关键点检测结果的目标为最小化式(1)：

alpha*Loss(predit_bbox,true_bbox)+beta*Loss(predit_landmark,true_landmark) (1)

其中，predit_bbox为所述第二图像的bbox，predit_landmark为所述最终的关键点检测结果；true_bbox为目标bbox，true_landmark为目标关键点；alpha，beta为可动态调节的超参数；Loss()为损失函数。

优选地，所述损失函数为L2 Loss，或者为平方根误差。

进一步地，所述对输入的动物面部样本进行bbox和关键点的联合回归，获取最终的关键点检测结果的方法还包括：分别在所述关键点定位网络的每个卷积模块后接一个线性回归层，得到第二关键点定位网络；根据所述第二关键点定位网络获取关键点预测结果的中间值；对所述关键点预测结果的中间值进行监督。

本发明实施例提供的动物面部关键点的检测方法，通过设计bbox回归网络和关键点定位网络，上述两个网络均属于简单的深度神经网络，具有模型小、速度快的优点；本发明采用级联训练方法，在保证关键点定位精度的同时，极大地降低了训练样本的标注成本；本发明同时回归bbox和关键点坐标，在一定程度上削弱了定位算法对bbox的依赖，并且利用回归的bbox框对输入图片做了进一步的裁剪和缩放，使得定位网络更关注动物物面部，有利于提升关键点的定位精度；本发明在关键点定位网络部分采用了对误差的由粗到精的约束，利于提升关键点的定位精度，同时也可以在训练时加快模型收敛。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下对本发明进行进一步详细说明。

步骤101，设置网络结构，所述网络结构包括bbox回归网络和关键点定位网络；

本实施例中的bbox回归网络，由若干卷积模块和全联接层构成，主要目标是回归一个更适合关键点定位的bbox，输出值为矩形框的左上角和右下角点坐标；关键点定位网络，由若干卷积模块和全联接层构成，主要目标是预测动物面部关键点的坐标位置。

步骤102，对所述网络结构进行级联训练；

具体方法包括：将获取的训练样本做第一角度的旋转和第一幅度的平移增广，得到第一阶段训练样本，并用所述第一阶段训练样本训练所述网络结构；将所述训练样本做第二角度的旋转和第二幅度的平移增广，得到第二阶段训练样本，并用所述第二阶段训练样本调整(fine-tune)所述网络结构；所述第一角度大于所述第二角度；所述第一幅度大于所述第二幅度。所述第一角度的范围为-0.4*dis～0.4*dis，所述第一幅度的范围为-40°～40°；所述第二角度的范围为-0.2*dis～0.2*dis，所述第二幅度的范围为-20°～20°；其中，dis表示动物双眼之间的距离。采用上述数值所获取的第一阶段训练样本来训练网络结构，使得该网络结构可以覆盖较大范围内的旋转和平移变换。当然，上述训练样本增广的方法也可以采用其它的平移、旋转范围，以及其它的级联次数，可根据具体需要设置。

步骤103，根据进行级联训练后的网络结构，对输入的动物面部样本进行bbox和关键点的联合回归，获取最终的关键点检测结果。

具体方法为：(1)所述输入的动物面部样本{x,y}包括动物面部图像x和动物面部关键点坐标位置y；(2)将所述动物面部图像x做预定倍数下的采样，例如5倍，得到第一图像x1；(3)将所述第一图像x1输入进行级联训练后的bbox回归网络，得到一个四维数组(x_min,y_min,x_max,y_max)，其中，(x_min,y_min)和(x_max,y_max)分别对应预测的bbox的左上角顶点坐标值和右下角顶点坐标值；(4)根据所述预测的bbox对所述动物面部图像x进行剪裁和缩放，获取第二图像x2，所述第二图像x2的长与所述动物面部图像x的长相等，所述第二图像x2的宽与所述动物面部图像x的宽相等；(5)将所述第二图像x2和所述动物面部图像x分别输入进行级联训练后的关键点定位网络，获取两个关键点预测结果；(6)将所述两个关键点预测结果取平均值，获取最终的关键点检测结果。

优选地，所述对输入的动物面部样本{x,y}进行bbox和关键点的联合回归，获取最终的关键点检测结果的目标为最小化式(1)：

alpha*Loss(predit_bbox,true_bbox)+beta*Loss(predit_landmark,true_landmark) (1)

本实施例中，进一步地，所述对输入的动物面部样本进行bbox和关键点的联合回归，获取最终的关键点检测结果的方法还包括：分别在所述关键点定位网络的每个卷积模块后接一个线性回归层，得到第二关键点定位网络；根据所述第二关键点定位网络获取关键点预测结果的中间值，例如，y1,y2,y3；对所述关键点预测结果的中间值y1,y2,y3进行监督。具体地，上述对所述关键点预测结果的中间值进行监督的方法包括：最小化式(2)：

其中，constrainLoss(a,b)＝max(0,a-(1-θ)b)，θ可动态调节的超参数，y_i为关键点预测结果的中间值。

当然，constrainLoss()也可以采用其它的形式，例如a－b<gamma，a/b<gamma等，可根据需要进行具体设置。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种动物面部关键点的检测方法，其特征在于，包括：

设置网络结构，所述网络结构包括bbox回归网络和关键点定位网络；

对所述网络结构进行级联训练；

根据进行级联训练后的网络结构，对输入的动物面部样本进行bbox和关键点的联合回归，获取最终的关键点检测结果；

所述bbox回归网络和所述关键点定位网络均包括若干个卷积模块和全联接层；

所述对所述网络结构进行级联训练的方法包括：

将获取的训练样本做第一角度的旋转和第一幅度的平移增广，得到第一阶段训练样本，并用所述第一阶段训练样本训练所述网络结构；

将所述训练样本做第二角度的旋转和第二幅度的平移增广，得到第二阶段训练样本，并用所述第二阶段训练样本调整所述网络结构；

所述第一角度大于所述第二角度；所述第一幅度大于所述第二幅度；

所述第一角度的范围为-40°～40°，所述第一幅度的范围为-0.4*dis～0.4*dis；所述第二角度的范围为-20°～20°，所述第二幅度的范围为-0.2*dis～0.2*dis；其中，dis表示动物双眼之间的距离；

其中，所述对输入的动物面部样本进行bbox和关键点的联合回归，获取最终的关键点检测结果的方法包括：

所述输入的动物面部样本包括动物面部图像和动物面部关键点坐标位置；将所述动物面部图像做预定倍数下的采样，得到第一图像；

将所述第一图像输入进行级联训练后的bbox回归网络，得到预测的bbox；

根据所述预测的bbox对所述动物面部图像进行剪裁和缩放，获取第二图像，所述第二图像的长与所述动物面部图像的长相等，所述第二图像的宽与所述动物面部图像的宽相等；

将所述第二图像和所述动物面部图像分别输入进行级联训练后的关键点定位网络，获取两个关键点预测结果；

将所述两个关键点预测结果取平均值，获取最终的关键点检测结果。

2.根据权利要求1所述的动物面部关键点的检测方法，其特征在于，所述对输入的动物面部样本进行bbox和关键点的联合回归，获取最终的关键点检测结果的目标为最小化式(1)：

alpha*Loss(predit_bbox,true_bbox)+beta*Loss(predit_landmark,true_landmark) (1)

3.根据权利要求2所述的动物面部关键点的检测方法，其特征在于，所述损失函数为L2Loss，或者为平方根误差。

4.根据权利要求3所述的动物面部关键点的检测方法，其特征在于，所述对输入的动物面部样本进行bbox和关键点的联合回归，获取最终的关键点检测结果的方法还包括：

分别在所述关键点定位网络的每个卷积模块后接一个线性回归层，得到第二关键点定位网络；

根据所述第二关键点定位网络获取关键点预测结果的中间值；

对所述关键点预测结果的中间值进行监督。