CN109978063B

CN109978063B - 一种生成目标对象的对齐模型的方法

Info

Publication number: CN109978063B
Application number: CN201910245951.8A
Authority: CN
Inventors: 齐子铭; 李志阳; 周子健; 李启东; 张伟
Original assignee: Xiamen Meitu Technology Co Ltd
Current assignee: Xiamen Meitu Technology Co Ltd
Priority date: 2019-03-28
Filing date: 2019-03-28
Publication date: 2021-03-02
Anticipated expiration: 2039-03-28
Also published as: CN109978063A

Abstract

本发明公开了一种生成目标对象的对齐模型的方法，适于在计算设备中执行，包括：获取包含目标对象的图像及其对应的标注数据，标注数据中包含至少一个关键点的坐标；对图像进行数据增强处理后得到第一训练图像；对第一训练图像进行曝光处理得到第二训练图像；以及将第一训练图像和第二训练图像输入预训练的目标对象的对齐模型中进行训练，以生成训练后的目标对象的对齐模型。本方案能够提高模型的精度，有效改善关键点对齐不稳定的问题，同时使模型能够满足移动端的应用需求。

Description

一种生成目标对象的对齐模型的方法

技术领域

本发明涉及技术领域，尤其涉及一种生成目标对象的对齐模型的方法、目标对象的对齐方法、计算设备及存储介质。

背景技术

图像中目标对象如猫脸、狗脸的关键点或特征点对齐在诸多现实场景中有广泛的应用。例如，在给宠物猫拍照或合影的过程中，通过检测出猫的五官和轮廓点，可以实时地加入一些贴图控件或文字，以增加拍摄的乐趣。但是与人脸对齐不同，宠物活泼好动，导致其姿态和表情多样，且宠物的种类繁多，增加了目标对象特征点对齐的难度。

基于移动端的特征点对齐方法要求很高的实时性。目前基于卷积神经网络的对齐模型较大，无法在移动端部署；且模型的计算效率低，无法实时检测出关键点，在对齐过程中存在关键点抖动不稳定的现象。

现有的猫脸或狗脸对齐方法主要分为两类，一种是直接基于卷积神经网络的人脸点检测模型进行检测，精度较低，影响后续控件的定位和添加。一种是采用更复杂的卷积神经网络进行深度学习，虽然能够达到较高的精度，但是计算量大效率低无法适应实时的要求。

因此，需要一种目标对象的对齐模型，能够匹配移动端的计算效率和内存，改善关键点抖动及网络训练不稳定的情况。

发明内容

为此，本发明提供了一种生成目标对象的对齐模型的方法以及目标对象的对齐方法，以力图解决或者至少缓解上面存在的至少一个问题。

根据本发明的一个方面，提供了一种生成目标对象的对齐模型的方法，该方法适于在计算设备中执行，包括：首先，获取包含目标对象的图像及其对应的标注数据，标注数据中包含至少一个关键点的坐标。然后，对图像进行数据增强处理后得到第一训练图像，并对第一训练图像进行曝光处理得到第二训练图像。最后，将第一训练图像和第二训练图像输入预训练的目标对象的对齐模型中进行训练，以生成训练后的目标对象的对齐模型。

可选地，在上述方法中，目标对象的对齐模型包括多个卷积处理层，卷积处理层包括多个分组卷积和1*1卷积。

可选地，在获取包含目标对象的图像及其对应的标注数据之前，该方法还包括：首先，检测原始图像中的目标对象，以得到表征目标对象的至少一个关键点的坐标。然后，基于关键点的坐标，从所述原始图像中裁切出包含目标对象的图像。

可选地，在上述方法中，首先，基于关键点的坐标计算凸包，以便得到目标对象的最小外接矩形。然后，将最小外接矩形扩展预定倍数。最后，基于扩展后的矩形裁切原始图像，以得到包含目标对象的图像。

可选地，在上述方法中，数据增强处理包括拉伸、翻转、旋转、仿射变换、遮挡、色偏处理中的一项或多项。

可选地，在上述方法中，曝光处理为对第一训练图像添加随机曝光度。

可选地，在上述方法中，将第一训练图像输入预训练的目标对象的对齐模型，以输出预测的第一关键点坐标；将第二训练图像输入预训练的目标对象的对齐模型，以输出预测的第二关键点坐标；计算标注的关键点坐标、第一关键点坐标和第二关键点坐标两两之间损失函数的损失值之和；基于损失值之和调整模型参数，直到满足预设条件时训练结束。

可选地，在上述方法中，基于预设的学习率，使用梯度下降法迭代更新模型的参数；在两次迭代之间的差值小于预设阈值或者迭代次数达到预设次数的情况下，训练结束。

可选地，在上述方法中，损失值之和基于下述公式计算：

L_fuction＝L_ori+L_exposure+L_sub

其中，L_ori为扰动损失函数，L_exposure为曝光损失函数，L_sub为补偿损失函数，target为标注的脸点坐标，pre_ori和pre_exposure分别为预测的第一脸点坐标和第二脸点坐标，N为关键点的数量。

可选地，在上述方法中，目标对象为猫脸、狗脸中任意一种。

根据本发明的另一方面，提供了目标对象的对齐方法，适于在计算设备中执行，方法包括：首先，对待检测的图像进行定位检测，以得到包含目标对象的目标框。然后，基于目标框对待检测的图像进行裁剪，得到包含目标对象的图像。最后，将包含目标对象的图像输入目标对象的对齐模型中，以得到目标对象的关键点坐标，其中目标对象的对齐模型基于上述生成目标对象的对齐模型的方法生成。

可选地，在该方法中，将待检测的图像输入训练好的目标检测模型中，以输出包含目标对象的目标框。

根据本发明的又一方面，提供了一种计算设备，包括：一个或多个处理器；和存储器；一个或多个程序，其中一个或多个程序存储在存储器中并被配置为由一个或多个处理器执行，一个或多个程序包括用于执行如上所述方法中的任一方法的指令。

根据本发明的再一方面，提供了一种存储一个或多个程序的计算机可读存储介质，一个或多个程序包括指令，指令当计算设备执行时，使得计算设备执行如上所述的方法中的任一方法。

根据本发明的方案，通过在猫脸对齐网络结构中设置多个分组卷积和1*1卷积，能够大幅度减少模型的参数。通过对图像进行数据增强处理和曝光处理，并调整损失函数的计算方法，能够提高模型的精度，有效改善猫脸点对齐不稳定的问题，使模型能够满足移动端的应用需求。

附图说明

为了实现上述以及相关目的，本文结合下面的描述和附图来描述某些说明性方面，这些方面指示了可以实践本文所公开的原理的各种方式，并且所有方面及其等效方面旨在落入所要求保护的主题的范围内。通过结合附图阅读下面的详细描述，本公开的上述以及其它目的、特征和优势将变得更加明显。遍及本公开，相同的附图标记通常指代相同的部件或元素。

图1示出了根据本发明的一个实施例的计算设备100的构造示意图；

图2示出了根据本发明的一个实施例的生成目标对象的对齐模型的方法200的示意性流程图；

图3示出了根据本发明的一个实施例的标注关键点的猫脸图像；

图4示出了凸包的示意图；

图5示出了最小外接矩形的示意图；

图6示出了根据本发明的一个实施例的对图像裁切的示意图；

图7示出了根据本发明的一个实施例的目标对象的对齐方法700的示意性流程图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

图1是示例计算设备100的框图。在基本的配置102中，计算设备100典型地包括系统存储器106和一个或者多个处理器104。存储器总线108可以用于在处理器104和系统存储器106之间的通信。

取决于期望的配置，处理器104可以是任何类型的处理器，包括但不限于：微处理器(μP)、微控制器(μC)、数字信息处理器(DSP)或者它们的任何组合。处理器104可以包括诸如一级高速缓存110和二级高速缓存112之类的一个或者多个级别的高速缓存、处理器核心114和寄存器116。示例的处理器核心114可以包括运算逻辑单元(ALU)、浮点数单元(FPU)、数字信号处理核心(DSP核心)或者它们的任何组合。示例的存储器控制器118可以与处理器104一起使用，或者在一些实现中，存储器控制器118可以是处理器104的一个内部部分。

取决于期望的配置，系统存储器106可以是任意类型的存储器，包括但不限于：易失性存储器(诸如RAM)、非易失性存储器(诸如ROM、闪存等)或者它们的任何组合。系统存储器106可以包括操作系统120、一个或者多个应用122以及程序数据124。在一些实施方式中，应用122可以布置为在操作系统上利用程序数据124进行操作。在一些实施例中，计算设备100被配置为执行生成目标对象的对齐模型方法200和目标对象的对齐方法700，程序数据124中就包含了用于执行上述各方法的指令。

计算设备100还可以包括有助于从各种接口设备(例如，输出设备142、外设接口144和通信设备146)到基本配置102经由总线/接口控制器130的通信的接口总线140。示例的输出设备142包括图形处理单元148和音频处理单元150。它们可以被配置为有助于经由一个或者多个A/V端口152与诸如显示器或者扬声器之类的各种外部设备进行通信。示例外设接口144可以包括串行接口控制器154和并行接口控制器156，它们可以被配置为有助于经由一个或者多个I/O端口158和诸如输入设备(例如，键盘、鼠标、笔、语音输入设备、图像输入设备)或者其他外设(例如打印机、扫描仪等)之类的外部设备进行通信。示例的通信设备146可以包括网络控制器160，其可以被布置为便于经由一个或者多个通信端口164与一个或者多个其他计算设备162通过网络通信链路的通信。

网络通信链路可以是通信介质的一个示例。通信介质通常可以体现为在诸如载波或者其他传输机制之类的调制数据信号中的计算机可读指令、数据结构、程序模块，并且可以包括任何信息递送介质。“调制数据信号”可以是这样的信号，它的数据集中的一个或者多个或者它的改变可以在信号中以编码信息的方式进行。作为非限制性的示例，通信介质可以包括诸如有线网络或者专线网络之类的有线介质，以及诸如声音、射频(RF)、微波、红外(IR)或者其它无线介质在内的各种无线介质。这里使用的术语计算机可读介质可以包括存储介质和通信介质二者。在一些实施例中，计算机可读介质中存储一个或多个程序，这一个或多个程序中包括执行某些方法的指令。

计算设备100可以实现为小尺寸便携(或者移动)电子设备的一部分，这些电子设备可以是诸如蜂窝电话、数码照相机、个人数字助理(PDA)、个人媒体播放器设备、无线网络浏览设备、个人头戴设备、应用专用设备、或者可以包括上面任何功能的混合设备。当然，计算设备100也可以实现为包括桌面计算机和笔记本计算机配置的个人计算机，或者是具有上述配置的服务器。本发明的实施方式对此均不作限制。

图2示出了根据本发明的一个实施例的生成目标对象的对齐模型的方法200的示意性流程图。其中对齐模型包括卷积处理层、池化层、归一化层和全连接层。卷积处理层包括多个分组卷积核1*1卷积。表1示出了根据本发明的一个实施例的猫脸对齐模型的部分网络结构参数。

表1猫脸对齐模型的部分网络结构参数

如上表1所示，首先对输入图像进行归一化处理，可以通过缩放或裁剪使输入卷积层的图像具有相同的尺寸(112*112)。卷积处理层可以用来特征提取，包括卷积、激活，例如Conv1_LeakyReLU表示第一个卷积处理层，包括卷积(Conv1)和激活(LeakyReLU)，网络参数包括卷积核的大小、填充值、步长，group等于1表示不分组。池化层可以对对输入的特征图进行压缩，一方面使特征图变小，简化网络计算复杂度；一方面进行特征压缩，提取主要特征。例如池化层可以使用Maxpooling，Maxpooling采用一个2*2的卷积核、步长为2，填充值为2，最后在每一个区域中寻找最大值，提取主要特征。Globalpooling全局池化，就是pooling的滑窗大小和整张特征图的尺寸一样大。这样，每个14×14×512的特征图输入就会被转化为1×1×512的输出。全连接层可以连接所有的特征，将输出值送给分类器，最后输出特征点的横坐标与纵坐标，共56个值。

模型中的卷积处理层使用了分组卷积和多个1*1卷积。例如，Conv5_LeakyReLU、Conv6_LeakyReLU、Conv7_LeakyReLU、Conv8_LeakyReLU均使用了分组数为4的分组卷积，Conv9_LeakyReLU、Conv10_LeakyReLU使用了分组数为2的分组卷积。其中分组卷积是对输入的特征图进行分组，然后每组分别卷积。如果卷积分组为G，则卷积层的参数量减少为原来的1/G。1*1卷积也可以在确保网络精度的同时减少参数计算量。此外，卷积层采用的激活函数为LeakyReLU，Leaky ReLU是给所有负值赋予一个非零斜率，参数negativeSlope可以设置为0.1。全局池化层可以使池化的滑窗大小与整个特征图的大小相同，这样每个W*H*C的特征图就会被转化为1*1*C的输出。全局池化主要用来解决全连接的问题，将最后一层的特征图进行整张图的池化，形成一个特征点。最后模型输出28个猫脸特征点的横坐标和纵坐标，共56个数据。借助本方案提供的猫脸对齐模型的网络结构，得到的模型大小在3Mb左右，能够满足移动端对模型大小的要求。

如图2所示，方法200始于步骤S210，获取包含目标对象的图像及其对应的标注数据，标注数据中包含至少一个关键点的坐标。

为便于说明，下文中以目标对象是猫脸为例，详细介绍生成目标对象的对齐模型的过程。应当指出，本发明的生成目标对象的对齐模型的各个步骤并不局限于对猫脸的对齐处理，也可以是其他动物的脸，如狗脸，此处不再做一一展开。

可以搜集各个种类、颜色、表情、动作的包含猫脸的图片数据集，可以将搜集的数据集按照一定的比例分为训练集和测试集。例如，搜集的猫脸图片共10658张，可以分为训练集10530张，测试集128张。对于训练集需要预先标注猫脸点(即，关键点)的位置，以便输入模型进行训练。图3示出了根据本发明的一个实施例的标注了关键点的猫脸图像。如图3所示，标号0-27为标注的包括猫脸轮廓、眼睛、鼻子、嘴巴等部位的28个猫脸特征点。可以根据实际应用标注不同数量的猫脸点，本方案对此不作限定。

由于获取的包含猫脸的图像尺度不同，有的图像中包含的猫脸尺度较大，有的图像中包含的猫脸尺度较小。为了降低模型训练的复杂度，可以对图像进行裁切，去除图像中的背景部分。

根据本发明的一个实施例，在获取包含目标对象的图像及其对应的标注数据之前，可以首先，检测原始图像中的目标对象，以得到表征目标对象的至少一个关键点的坐标。然后，基于关键点的坐标，从原始图像中裁切出包含目标对象的图像。随后将裁切后的图像作为模型的训练数据可以增加模型的鲁棒性。

在本发明的一个实现方式中，可以基于关键点的坐标计算凸包，以便得到目标对象的最小外接矩形。然后，将最小外接矩形扩展预定倍数，以便基于扩展后的矩形裁切原始图像，以得到包含目标对象的图像。其中，凸包就是包含点集中所有的点的最小凸多边形。图4和图5分别示出了凸包和基于该凸包的最小外接矩形的示意图。如图4所示，平面上有p0～p12共13个点，过某些点作一个多边形，使这个多边形把所有点都“包”起来，即凸包。可以使用OpenCV计算凸包。最小外接矩形即以给定的二维形状(凸包)各顶点中的最大横坐标、最小横坐标、最大纵坐标、最小纵坐标定下边界的矩形。同样可以使用OpenCV生成最小外接矩形。以上计算凸包和最小外接矩形的方法是本领域公知常识，本方案不再赘述，可以使用任意一种方法或工具进行计算，本方案对此不做限定。

图6示出了根据本发明的一个实施例的图像裁切示意图。如图6所示，矩形框A0B0C0D0为计算得到的最小外接矩形。由于猫脸检测模型检测出的猫脸区域并不是完全贴合猫脸的，会比猫脸略大一些，而根据脸点计算出来的凸包却是完全贴合猫脸的。为了使模型在实际应用时更鲁棒，更符合实际运用的环境，在裁切图像时可以把裁切框扩大一些，即图6中所示的ABCD矩形框。在本发明的一个实现方式中，可以将根据猫脸点计算出的最小外接矩形向外扩大1.2倍。不同实验场景可以根据实验结果确定扩展的倍数。

随后在步骤S220中，对图像进行数据增强处理后得到第一训练图像。

为了得到鲁棒性更好的猫脸对齐网络，可以在训练时对图像进行数据增强处理，例如添加多种扰动，包括拉伸、翻转、旋转、仿射变换、遮挡、色偏，添加噪声等。

随后在步骤S230中，对第一训练图像进行曝光处理得到第二训练图像。

曝光控制主要用来调节图像整体亮度，可以对数据增强处理后的图像随机添加一定程度的曝光度。也就是说，通过曝光处理补偿图像的亮度，如果获取的图像环境光源偏暗，可以增加曝光量以突出画面的清晰度。

最后在步骤S240中，将第一训练图像和第二训练图像输入预训练的目标对象的对齐模型中进行训练，以生成训练后的目标对象的对齐模型。

例如，以猫脸对齐模型为例，可以将第一训练图像输入预训练的猫脸对齐模型，得到预测的第一关键点坐标记为pre_ori；将第二训练图像输入预训练的猫脸对齐模型，得到预测的第二关键点坐标记为pre_exposure。基于标注的关键点坐标、第一关键点坐标和第二关键点坐标两两之间损失函数的损失值之和，调整模型的权重参数。

根据本发明的一个实施例，可以基于预设的学习率，使用梯度下降法反向迭代更新模型的参数。在两次迭代之间的差值小于预设阈值或者迭代次数达到预设次数的情况下，训练结束。例如预先设置学习率为0.0002，最大迭代次数设置为1000。经过多次迭代后，损失函数的梯度接近于0，模型收敛，就可以结束训练。

根据本发明的一个实施例，可以基于下述公式计算模型总的损失函数的损失值，即标注的关键点坐标、第一关键点坐标和第二关键点坐标两两之间损失函数的损失值之和：

L_fuction＝L_ori+L_exposure+L_sub

其中，L_ori为扰动损失函数，L_exposure为曝光损失函数，L_sub为补偿损失函数，target为标注的关键点坐标，pre_ori和pre_exposure分别为预测的第一关键点坐标和第二关键点坐标，N为关键点的数量。

通过上述步骤即可训练得到目标对象的对齐模型，能够达到较高的检测精度，并可以有效改善实时关键点对齐不稳定、抖动的问题。

图7示出了根据本发明的一个实施例的目标对象的对齐方法700的示意性流程图。如图7所示，在步骤S710中，对待检测的图像进行定位检测，以得到包含目标对象的目标框。然后在步骤S720中，基于目标框对待检测的图像进行裁剪，得到包含目标对象的图像。随后在步骤S730中，将包含目标对象的图像输入目标对象的对齐模型中，以得到目标对象的关键点坐标，其中，目标对象的对齐模型基于如上所述的方法200生成。

根据本发明的一个实施例，可以将待检测的图像输入训练好的目标检测模型中，以输出包含目标对象的目标框。也可以采用人工标注的方法标注出目标框，或者使用传统的图像处理方法对图像进行局部剪裁，直接裁剪出包含目标对象的图像。本方案对此不做限定。

根据本发明方案，通过在目标对象的对齐模型中设置多个分组卷积和1*1卷积，能够大幅度减少模型的参数。通过对图像进行数据增强处理和曝光处理，能够提高模型的鲁棒性。通过对图像进行裁切，可以提高模型的计算精度。通过调整损失函数的计算方法，能够有效改善关键点对齐不稳定的问题，使模型能够满足移动端的应用需求。

A8、如A7所述的方法，其中，所述损失值之和基于下述公式计算：

L_fuction＝L_ori+L_exposure+L_sub

A9、如A7所述的方法，其中，所述基于所述损失值之和调整模型参数的步骤包括：

基于预设的学习率，使用梯度下降法反向迭代更新模型的参数；

在两次迭代之间的差值小于预设阈值或者迭代次数达到预设次数的情况下，训练结束。

A10、如A1-9任意一项中所述的方法，其中，所述目标对象为猫脸、狗脸中任意一种。

B12、如B11所述的方法，其中，所述对待检测的图像进行定位检测的步骤包括：

将待检测的图像输入训练好的目标检测模型中，以输出包含目标对象的目标框。

应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员应当理解在本文所公开的示例中的设备的模块或单元或组件可以布置在如该实施例中所描述的设备中，或者可替换地可以定位在与该示例中的设备不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

这里描述的各种技术可结合硬件或软件，或者它们的组合一起实现。从而，本发明的方法和设备，或者本发明的方法和设备的某些方面或部分可采取嵌入有形媒介，例如软盘、CD-ROM、硬盘驱动器或者其它任意机器可读的存储介质中的程序代码(即指令)的形式，其中当程序被载入诸如计算机之类的机器，并被所述机器执行时，所述机器变成实践本发明的设备。

在程序代码在可编程计算机上执行的情况下，计算设备一般包括处理器、处理器可读的存储介质(包括易失性和非易失性存储器和/或存储元件)，至少一个输入装置，和至少一个输出装置。其中，存储器被配置用于存储程序代码；处理器被配置用于根据该存储器中存储的所述程序代码中的指令，执行本发明所述的方法。

以示例而非限制的方式，计算机可读介质包括计算机存储介质和通信介质。计算机可读介质包括计算机存储介质和通信介质。计算机存储介质存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息。通信介质一般以诸如载波或其它传输机制等已调制数据信号来体现计算机可读指令、数据结构、程序模块或其它数据，并且包括任何信息传递介质。以上的任一种的组合也包括在计算机可读介质的范围之内。

此外，所述实施例中的一些在此被描述成可以由计算机系统的处理器或者由执行所述功能的其它装置实施的方法或方法元素的组合。因此，具有用于实施所述方法或方法元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外，装置实施例的在此所述的元素是如下装置的例子：该装置用于实施由为了实施该发明的目的的元素所执行的功能。

如在此所使用的那样，除非另行规定，使用序数词“第一”、“第二”、“第三”等等来描述普通对象仅仅表示涉及类似对象的不同实例，并且并不意图暗示这样被描述的对象必须具有时间上、空间上、排序方面或者以任意其它方式的给定顺序。

尽管根据有限数量的实施例描述了本发明，但是受益于上面的描述，本技术领域内的技术人员明白，在由此描述的本发明的范围内，可以设想其它实施例。此外，应当注意，本说明书中使用的语言主要是为了可读性和教导的目的而选择的，而不是为了解释或者限定本发明的主题而选择的。因此，在不偏离所附权利要求书的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围，对本发明所做的公开是说明性的，而非限制性的，本发明的范围由所附权利要求书限定。

Claims

1.一种生成目标对象的对齐模型的方法，所述方法适于在计算设备中执行，包括：

获取包含目标对象的图像及其对应的标注数据，标注数据中包含至少一个关键点的坐标；

对图像进行数据增强处理后得到第一训练图像；

对所述第一训练图像进行曝光处理得到第二训练图像；以及

将所述第一训练图像和第二训练图像输入预训练的目标对象的对齐模型中进行训练，以生成训练后的目标对象的对齐模型，具体包括：

将所述第一训练图像输入预训练的目标对象的对齐模型，以输出预测的第一关键点坐标；

将所述第二训练图像输入预训练的目标对象的对齐模型，以输出预测的第二关键点坐标；以及

计算标注的关键点坐标、第一关键点坐标和第二关键点坐标两两之间损失函数的损失值之和；

基于所述损失值之和调整模型参数，直到满足预设条件时训练结束。

2.如权利要求1所述的方法，其中，在获取包含目标对象的图像及其对应的标注数据之前，所述方法还包括：

检测原始图像中的目标对象，以得到表征目标对象的至少一个关键点的坐标；

基于关键点的坐标，从所述原始图像中裁切出包含目标对象的图像。

3.如权利要求1所述的方法，其中，所述目标对象的对齐模型包括多个卷积处理层，所述卷积处理层包括多个分组卷积和1*1卷积。

4.如权利要求2所述的方法，其中，所述基于关键点的坐标，从所述原始图像中裁切出包含目标对象的图像的步骤包括：

基于关键点的坐标计算凸包，以便得到目标对象的最小外接矩形；

将所述最小外接矩形扩展预定倍数；

基于扩展后的矩形裁切原始图像，以得到包含目标对象的图像。

5.如权利要求1所述的方法，其中，所述数据增强处理包括拉伸、翻转、旋转、仿射变换、遮挡、色偏处理中的一项或多项。

6.如权利要求1所述的方法，其中，所述曝光处理为对所述第一训练图像添加随机曝光度。

7.如权利要求1所述的方法，其中，所述损失值之和基于下述公式计算：

L_fuction＝L_ori+L_exposure+L_sub

8.如权利要求1所述的方法，其中，所述基于所述损失值之和调整模型参数的步骤包括：

9.如权利要求1-8任意一项中所述的方法，其中，所述目标对象为猫脸、狗脸中任意一种。

10.一种目标对象的对齐方法，适于在计算设备中执行，所述方法包括：

对待检测的图像进行定位检测，以得到包含目标对象的目标框；

基于目标框对待检测的图像进行裁剪，得到包含目标对象的图像；

将包含目标对象的图像输入目标对象的对齐模型中，以得到目标对象的关键点坐标，

其中所述目标对象的对齐模型基于权利要求1-9任意一项中所述的方法生成。

11.如权利要求10所述的方法，其中，所述对待检测的图像进行定位检测的步骤包括：

12.一种计算设备，包括：

一个或多个处理器；和

存储器；

一个或多个程序，其中所述一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行根据权利要求1-11所述方法中任一方法的指令。

13.一种存储一个或多个程序的计算机可读存储介质，所述一个或多个程序包括指令，所述指令当计算设备执行时，使得所述计算设备执行根据权利要求1-11所述方法中任一方法的指令。