CN110096964A

CN110096964A - 一种生成图像识别模型的方法

Info

Publication number: CN110096964A
Application number: CN201910278062.1A
Authority: CN
Inventors: 齐子铭; 陈裕潮; 李志阳; 张伟; 傅松林
Original assignee: Xiamen Meitu Technology Co Ltd
Current assignee: Xiamen Meitu Technology Co Ltd
Priority date: 2019-04-08
Filing date: 2019-04-08
Publication date: 2019-08-06
Anticipated expiration: 2039-04-08
Also published as: CN110096964B

Abstract

本发明公开了一种生成图像识别模型的方法，包括：获取具有标注数据的训练图像；将属于目标类别的训练图像输入预训练的主网络和第一分支网络进行处理，以输出目标对象的特征点坐标，基于标注数据和输出的特征点坐标，训练得到中间的主网络和第一分支网络；将属于目标类别和不属于目标类别的训练图像均输入中间的主网络和预训练的第二分支网络进行处理，以输出训练图像的类别，基于标注数据和输出的类别，训练得到主网络和第二分支网络；基于训练得到的主网络、第一分支网络和第二分支网络，生成图像识别模型。该方案能够提高图像中目标对象特征点检测的精度和稳定性。

Description

一种生成图像识别模型的方法

技术领域

本发明涉及图像识别技术领域，尤其涉及一种生成图像识别模型的方法、图像识别方法、计算设备及存储介质。

背景技术

猫脸或狗脸对齐在诸多现实场景中有广泛的应用，如在给宠物拍照或与宠物合影的过程中，通过检测出宠物的五官位置和轮廓点，可以实时地加入一些贴图控件或文字，以增加拍摄的乐趣。但是与人脸对齐不同，宠物活泼好动，导致其姿态和表情多样，且宠物的种类繁多，增加了识别的难度。

目前针对猫脸或狗脸图像的识别或检测方法，一种是直接基于卷积神经网络的人脸检测模型进行猫脸特征点检测，精度较低；一种是采用更复杂的卷积神经网络进行深度学习，虽然能够达到较高的精度，但是计算量大、效率低；一种是在进行猫脸对齐之前，用跟踪或检测算法先检测到猫脸，而跟踪或检测算法常存在错误检测的情况，这使得猫脸对齐在实际拍摄场景中的应用仍然受限。

因此，需要一种针对猫、狗等目标对象的图像识别方法，能够同时具有对齐和分类的功能，能够进一步提高特征点检测的准确性和稳定性。

发明内容

为此，本发明提供了一种生成图像识别模型的方法及图像识别方法，以力图解决或者至少缓解上面存在的至少一个问题。

根据本发明的一个方面，提供了一种生成图像识别模型的方法，适于在计算设备中执行，该方法包括：首先，获取具有标注数据的训练图像，其中标注数据包括图像类别和当训练图像属于目标类别时，训练图像中目标对象的特征点坐标。然后，将属于目标类别的训练图像输入预训练的主网络和第一分支网络进行处理，以输出训练图像中对象的特征点坐标，基于标注数据和输出的特征点坐标，训练得到中间的主网络和第一分支网络。随后，将属于目标类别和不属于目标类别的训练图像均输入中间的主网络和预训练的第二分支网络进行处理，以输出训练图像的类别，基于标注数据和输出的类别，训练得到主网络和第二分支网络。最后，基于训练得到的主网络、第一分支网络和第二分支网络，生成图像识别模型。

可选地，在上述方法中，第一分支网络和第二分支网络并列连接。第一分支网络适于对属于目标类别的训练图像中目标对象的特征点进行回归处理，以输出目标对象的特征点坐标。第二分支网络适于对所有类别的训练图像进行分类处理，以输出图像的类别。

可选地，在上述方法中，基于标注数据与输出的特征点坐标之间的第一损失值，调整预训练的主网络和第一分支网络的参数，直到第一损失值满足预定条件，训练结束。

可选地，在上述方法中，基于标注数据与输出类别之间的第二损失值，调整中间的主网络和预训练的第二分支网络的参数，直到第二损失值满足预定条件，训练结束。

可选地，在上述方法中，图像类别包括狗脸图像、猫脸图像、人脸图像和其他图像。

可选地，在上述方法中，对训练图像进行预处理，所述预处理包括数据增强处理和对属于目标类别的训练图像进行剪裁处理。

可选地，在上述方法中，数据增强处理包括拉伸、翻转、旋转、仿射变换、曝光、遮挡、色偏处理中的一项或多项。

可选地，在上述方法中，首先，基于目标对象的特征点坐标计算凸包，以便得到目标对象的最小外接矩形。然后，将最小外接矩形扩展预定倍数。最后，基于扩展后的矩形剪裁属于目标类别的训练图像，以得到目标对象的图像。

根据本发明另一个方面，提供了一种图像识别方法，该方法适于在计算设备中执行。在该方法中，将待识别的图像输入如上所述的方法生成的图像识别模型中，以得到图像的类别，并在图像类别为目标类别时，输出图像中目标对象的特征点坐标。

根据本发明另一个方面，提供了一种计算设备，包括：一个或多个处理器；和存储器；一个或多个程序，其中一个或多个程序存储在存储器中并被配置为由一个或多个处理器执行，一个或多个程序包括用于执行如上所述方法中的任一方法的指令。

根据本发明的再一方面，提供了一种存储一个或多个程序的计算机可读存储介质，一个或多个程序包括指令，指令当计算设备执行时，使得计算设备执行如上所述的方法中的任一方法。

根据本发明的方案，通过在图像识别模型中设计两个分支，分别用于回归定位以及类别判断。在进行图像识别时，先对输入的图像进行分类，若判断为目标对象再进行下一步的特征点定位，有效地减少了错误检测的情况，提高了特征点检测的准确性。

附图说明

为了实现上述以及相关目的，本文结合下面的描述和附图来描述某些说明性方面，这些方面指示了可以实践本文所公开的原理的各种方式，并且所有方面及其等效方面旨在落入所要求保护的主题的范围内。通过结合附图阅读下面的详细描述，本公开的上述以及其它目的、特征和优势将变得更加明显。遍及本公开，相同的附图标记通常指代相同的部件或元素。

图1示出了根据本发明的一个实施例的计算设备100的构造示意图；

图2示出了根据本发明的一个实施例的生成图像识别模型的方法200的示意性流程图；

图3示出了根据本发明的一个实施例的图像识别模型的网络结构示意图；

图4示出了根据本发明的一个实施例的属于目标类别的训练图像剪裁处理的示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

图1是示例计算设备100的框图。在基本的配置102中，计算设备100典型地包括系统存储器106和一个或者多个处理器104。存储器总线108可以用于在处理器104和系统存储器106之间的通信。

取决于期望的配置，处理器104可以是任何类型的处理器，包括但不限于：微处理器(μP)、微控制器(μC)、数字信息处理器(DSP)或者它们的任何组合。处理器104可以包括诸如一级高速缓存110和二级高速缓存112之类的一个或者多个级别的高速缓存、处理器核心114和寄存器116。示例的处理器核心114可以包括运算逻辑单元(ALU)、浮点数单元(FPU)、数字信号处理核心(DSP核心)或者它们的任何组合。示例的存储器控制器118可以与处理器104一起使用，或者在一些实现中，存储器控制器118可以是处理器104的一个内部部分。

取决于期望的配置，系统存储器106可以是任意类型的存储器，包括但不限于：易失性存储器(诸如RAM)、非易失性存储器(诸如ROM、闪存等)或者它们的任何组合。系统存储器106可以包括操作系统120、一个或者多个应用122以及程序数据124。在一些实施方式中，应用122可以布置为在操作系统上利用程序数据124进行操作。在一些实施例中，计算设备100被配置为执行生成图像识别模型的方法200或图像识别方法，程序数据124中就包含了用于执行上述各方法的指令。

计算设备100还可以包括有助于从各种接口设备(例如，输出设备142、外设接口144和通信设备146)到基本配置102经由总线/接口控制器130的通信的接口总线140。示例的输出设备142包括图形处理单元148和音频处理单元150。它们可以被配置为有助于经由一个或者多个A/V端口152与诸如显示器或者扬声器之类的各种外部设备进行通信。示例外设接口144可以包括串行接口控制器154和并行接口控制器156，它们可以被配置为有助于经由一个或者多个I/O端口158和诸如输入设备(例如，键盘、鼠标、笔、语音输入设备、图像输入设备)或者其他外设(例如打印机、扫描仪等)之类的外部设备进行通信。示例的通信设备146可以包括网络控制器160，其可以被布置为便于经由一个或者多个通信端口164与一个或者多个其他计算设备162通过网络通信链路的通信。

网络通信链路可以是通信介质的一个示例。通信介质通常可以体现为在诸如载波或者其他传输机制之类的调制数据信号中的计算机可读指令、数据结构、程序模块，并且可以包括任何信息递送介质。“调制数据信号”可以是这样的信号，它的数据集中的一个或者多个或者它的改变可以在信号中以编码信息的方式进行。作为非限制性的示例，通信介质可以包括诸如有线网络或者专线网络之类的有线介质，以及诸如声音、射频(RF)、微波、红外(IR)或者其它无线介质在内的各种无线介质。这里使用的术语计算机可读介质可以包括存储介质和通信介质二者。在一些实施例中，计算机可读介质中存储一个或多个程序，这一个或多个程序中包括执行某些方法的指令。

计算设备100可以实现为小尺寸便携(或者移动)电子设备的一部分，这些电子设备可以是诸如蜂窝电话、数码照相机、个人数字助理(PDA)、个人媒体播放器设备、无线网络浏览设备、个人头戴设备、应用专用设备、或者可以包括上面任何功能的混合设备。当然，计算设备100也可以实现为包括桌面计算机和笔记本计算机配置的个人计算机，或者是具有上述配置的服务器。本发明的实施方式对此均不作限制。

现有的针对猫、狗等目标对象的特征点对齐方法在进行特征点对齐之前需要用跟踪或检测算法先检测到图像中猫脸或狗脸的位置，而位置跟踪或检测算法通常存在错误检测的情况，这使得特征点对齐在实际拍摄应用中的准确性依然不高。本方案设计了图像识别模型的网络结构，具有分类分支和回归分支，该模型能够在进行特征点对齐之前，先对输入的图像进行分类，确定图像类别。并在判断输入的图像类别为目标类别(即，图像中包含目标对象)时，再进行下一步的回归定位，进一步确定出目标对象的特征点坐标。

为了使模型的训练时间短、精度高且具有较强的鲁棒性，本方案提供一种生成图像识别模型的方法。图2示出了根据本发明的一个实施例的生成图像识别模型的方法200的示意性流程图。该方法200适于在计算设备100中执行。

在执行方法200时，会预先构建根据本发明实施方式的图像识别模型的网络结构。根据本发明的实施例，图像识别模型可以包括主网络、第一分支网络和第二分支网络。图3示出了根据本发明的一个实施例的图像识别模型的结构示意图。如图3所示，主网络包括多个卷积处理层，通过对输入图像进行卷积、激活、池化处理，完成图像的特征提取。第一分支网络和第二分支网络并列与主网络连接，第一分支网络可以对属于目标类别的图像中目标对象的特征点进行回归处理，输出目标对象的特征点坐标。第二分支网络可以对所有类别的训练图像(即，属于目标类别的训练图像和不属于目标类别的训练图像)进行分类处理，输出图像的类别。表1示出了根据本发明一个实施例的预训练的主网络的部分网络参数。

表1预训练的主网络的部分参数示例

其中，kh、kw表示卷积核的高度和宽度，padding为填充值，stride为步长。group表示分组卷积，group＝1表示不分组。pool表示池化的类型，可以是平均池化、最大池化等。如上表1所示，输入图像的尺度为三通道112*112，即输入图像为尺寸一致的彩色图像。Conv1_LeakyReLU中Conv1表示第一卷积层、LeakyReLU为激活函数的类型.可以是ReLU、tanh、sigmoid、LeakyReLU等任一类型，在此不做限定。当采用LeakyReLU作为激活函数时，给所有负值赋予一个非零斜率，非零斜率可以设置为0.1。Maxpool表示最大池化层，即对邻域内的特征点取最大，可以使特征参数量减少。其中pool＝ave表示平均提取方差值。此外，也可以采用meanpool平均池化层，由于特征提取的误差主要来自两个方面：邻域大小受限造成的估计值方差增大；卷积层参数误差造成估计均值的偏移。一般来说，平均池化层能减小第一种误差，更多的保留图像的背景信息，最大池化层能减小第二种误差，更多的保留纹理信息。可以根据实际需求选择池化类型。经过上述卷积、激活、池化处理后，可以得到训练图像的特征图。

表2示出了根据本发明的一个实施例的预训练的第一分支网络的部分网络参数。

表2预训练的第一分支网络的部分参数示例

如上表2所示，主网络最终输出的特征图(即，表1中经层“Conv15_LeakyReLU”输出的特征图)作为第一分支网络的输入。第一分支网络可以对输入图像进行卷积、激活、池化和全连接处理。如上表2所示，global pooling＝true表示池化层采用全局池化，即pooling的滑窗大小和整张特征图的大小一样。这样，每个W×H×C的特征图输入就会被转化为1×1×C输出。因此，其实也等同于每个位置权重都为1/(W×H)的全连接层操作。num_output为输出特征点的数量。池化层可以采用global pooling全局池化，也就是池化层的滑窗尺寸和整张特征图的尺寸一样大。这样，每个W×H×C的特征图输入就会被转化为1×1×C输出。因此，其实也等同于每个位置权重都为1/(W×H)的全连接层操作。全连接层可以整合卷积层或池化层中具有类别区分性的局部信息。其中，fc1_LeakyReLU中fc1表示第一个全连接层，为了提升卷积神经网络的网络性能，全连接层每个神经元的激励函数可以采用LeakyReLU激活函数，也可以使用其他如ReLU、tanh等激活函数，在此不做限定。fc2为第二个全连接层，直接输出28个特征点的坐标，即横坐标与纵坐标共56个值。需要说明的是，第一分支网络中，部分参数与主网络的参数重合，此处不再赘述。

表3示出了根据本发明的一个实施例的预训练的第二分支网络的部分网络参数。

表3预训练的第二分支网络的部分参数示例

如表3所示，第二分支网络对主网络输出的特征图进行卷积、激活、池化、全连接和归一化处理。fc3_LeakyReLU中fc3为第三全连接层，后接LeakyReLU激活函数。同样可以采用其他激活函数，在此不做限定。Fc4为第四全连接层，输出图像属于4个类别的概率。可以认为概率越接近1的类别为预测的类别。最后一层为softmax层，进行回归分类最后输出分类结果。需要说明的是，第二分支网络中，部分参数与主网络或第一分支网络的参数重合，此处不再赘述。

应当指出，上述图像识别模型的结构、以及各组成部分中各卷积层、池化层等的基本参数均可由本领域技术人员预先设置。在设计好图像识别模型的结构和各处理层的参数后，还需要对其进行训练，以使其输出能够达到预期效果。训练生成图像识别模型的过程，即确定模型的模型参数，模型参数包括每一个卷积核的各个位置处的权重，以及偏置参数。

以下结合图2详细介绍根据本发明实施方式的生成图像识别模型的方案，如图2所示，在步骤S210中，获取具有标注数据的训练图像，其中标注数据包括图像类别和当训练图像属于目标类别时，训练图像中目标对象的特征点坐标。

根据本发明的实施例，图像的类别包括：狗脸图像、猫脸图像、人脸图像和其他图像。为了方便描述，以下以目标对象为猫(即，目标类别是猫脸图像)进行本方案的阐述。例如，可以采集各类猫脸、狗脸、人脸及其他图像，根据本发明的一个实现方式，获取的训练图像集可以包括一万张猫脸图，一万张狗脸图、一万张人脸图，并加入两万张其他类图。标注数据可以由人工标注，其中图像类别可以标注猫脸图像为0，狗脸图像标注为1，人脸图像标注为2，其他图像标注为3。也可以直接标注成“cat、dog、human、other”，不限于此。在一种优选的实施例中，将标注数据记作一个四维向量，用[1，0，0，0]表示猫脸图像，用[0，1，0，0]表示狗脸图像，用[0，0，1，0]表示人脸图像，用[0，0，0，1]表示其他图像。尽量使获取的训练图像涵盖范围广，图像中猫狗的种类、姿态、位置、颜色等属性多样化。同时，采集若干张上述四种类别的图像，作为测试集(应当指出，测试集中的测试图像可以与至少一张训练图像重合，本发明的实施例不限于此)。例如，采集猫脸图像200张、狗脸图像200张、人脸图像100张以及其他图像50张，作为测试图像。以上获取训练集和测试集的数量仅是示例性的，可以根据实际需要调整训练集和测试集的数量和比例。在标注数据时还需要标注出猫脸特征点坐标。

根据本发明的一个实施例，可以对获取的训练图像进行预处理。预处理可以包括数据增强处理和对属于目标类别的图像进行裁剪处理。其中数据增强处理可以包括拉伸、翻转、旋转、仿射变换、曝光、遮挡、色偏处理等。这样可以解决数据不平衡的问题，使模型具有更好的鲁棒性。为了降低模型训练的复杂度，还可以对包含目标对象的图像进行剪裁处理。在一个实现方式中，可以基于目标对象的特征点坐标计算凸包，以便得到目标对象的最小外接矩形。然后，将最小外接矩形扩展预定倍数。最后基于扩展后的矩形裁切原始图像，以得到包含目标对象的图像。

图4示出了根据本发明的一个实施例的属于目标类别的图像剪裁处理的示意图。如图4所示，根据标注的28个特征点的坐标计算凸包，进而计算最小外接矩形，其4个顶点为A0、B0、C0、D0，向外拓展得到猫脸的裁切矩形，拓展矩形的4个顶点为A、B、C、D。计算凸包和最小外接矩形的方法是本领域技术人员公知常识，在此不再赘述。

在随后的模型训练过程中，可以首先对预训练的主网络和预训练的第一分支网络(即回归分支)进行训练，使训练后的中间主网络和第一分支网络具有较好的精度。然后再进行分类分支(即经上一步骤训练得到的中间主网络和预训练的第二分支网络)的训练。

在步骤S220中，将属于目标类别的训练图像输入预训练的主网络和预训练的第一分支网络进行处理，以输出训练图像中对象的特征点坐标，并且，基于标注数据和输出的特征点坐标，训练得到中间的主网络和第一分支网络。

根据本发明的一个实施例，基于标注数据与输出的特征点坐标之间的第一损失值，调整预训练的主网络和第一分支网络的参数，直到所述第一损失值满足预定条件，训练结束。例如，预定条件可以设置为，使用梯度下降法计算的第一损失值前后两次损失值之差小于预定阈值，或者迭代次数达到预定次数。在另一些实施例中，还可以采用训练集和测试集交叉验证的方式训练，避免网络的过拟合或欠拟合，不限于此。第一损失值可以使用L1损失函数计算。

随后在步骤S230中，将属于目标类别和不属于目标类别的训练图像均输入中间的主网络和预训练的第二分支网络进行处理，以输出训练图像的类别，并且，基于标注数据和输出的类别，训练得到主网络和第二分支网络。

基于预训练的中间主网络进一步训练第二分支网络可以提高网络的精度，在训练过程中可以通过微调的方法，使最后训练后得到的模型具有更好的定位和分类精度。根据本发明的一个实施例，基于标注数据与输出类别之间的第二损失值，调整中间的主网络和第二分支网络的参数，直到第二损失值满足预定条件，训练结束。

为了使第二分支网络的抗扰动能力更强且鲁棒性更好，可以使第二分支网络的学习率远小于主网络的学习率，例如第二分支网络的学习率设置为2x10^-3，而主网络的学习率设置为1/50～1/20之间。第二损失值可以使用交叉熵损失函数计算：

其中，y′为标注图像类别(猫脸标注为0，狗脸标注为1，人脸标注为2，其他类标注为3)，y为预测的各个类别的概率，i为图像的索引。

最后在步骤S240中，基于训练得到的主网络、第一分支网络和第二分支网络，生成图像识别模型。

以上生成的图像识别模型小于5Mb，满足移动端速度和模型大小限制要求。

利用上述方法得到训练后的图像识别模型之后，可以将待识别的图像输入训练好的图像识别模型中，以得到图像的类别，并在图像类别为目标类别时，输出图像中目标对象的特征点坐标。例如待识别图像可以包括192张狗脸图，128张猫脸图，64张其他图。输入任意图像，若图像中包含猫脸，则网络输出分类结果，且输出28个猫脸特征点的坐标；若图像中不包含猫脸，则网络仅输出分类结果。根据本发明的一个实施例，还可以预先对待识别的图像进行剪裁，以将剪裁后的图像输入生成的图像识别模型中。这样可以进一步提高图像识别的精度，即提高目标对象特征点检测的精度。

根据本发明的方案，通过基于对齐模型训练分类模型的方法，将训练后的图像识别模型能够同时具备对齐和分类的功能，且模型较小，能够满足移动端的内存和计算速度。在使用本方案生成的图像识别模型进行图像识别时，输出目标对象的特征点的准确性有所提高。

A7、如A6所述的方法，其中，所述数据增强处理包括拉伸、翻转、旋转、仿射变换、曝光、遮挡、色偏处理中的一项或多项。

A8、如A6所述的方法，其中，所述对属于目标类别的训练图像进行剪裁处理的步骤包括：

基于目标对象的特征点坐标计算凸包，以便得到目标对象的最小外接矩形；

将所述最小外接矩形扩展预定倍数；

基于扩展后的矩形剪裁属于目标类别的训练图像，以得到目标对象的图像。

应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员应当理解在本文所公开的示例中的设备的模块或单元或组件可以布置在如该实施例中所描述的设备中，或者可替换地可以定位在与该示例中的设备不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

这里描述的各种技术可结合硬件或软件，或者它们的组合一起实现。从而，本发明的方法和设备，或者本发明的方法和设备的某些方面或部分可采取嵌入有形媒介，例如软盘、CD-ROM、硬盘驱动器或者其它任意机器可读的存储介质中的程序代码(即指令)的形式，其中当程序被载入诸如计算机之类的机器，并被所述机器执行时，所述机器变成实践本发明的设备。

在程序代码在可编程计算机上执行的情况下，计算设备一般包括处理器、处理器可读的存储介质(包括易失性和非易失性存储器和/或存储元件)，至少一个输入装置，和至少一个输出装置。其中，存储器被配置用于存储程序代码；处理器被配置用于根据该存储器中存储的所述程序代码中的指令，执行本发明所述的方法。

以示例而非限制的方式，计算机可读介质包括计算机存储介质和通信介质。计算机可读介质包括计算机存储介质和通信介质。计算机存储介质存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息。通信介质一般以诸如载波或其它传输机制等已调制数据信号来体现计算机可读指令、数据结构、程序模块或其它数据，并且包括任何信息传递介质。以上的任一种的组合也包括在计算机可读介质的范围之内。

此外，所述实施例中的一些在此被描述成可以由计算机系统的处理器或者由执行所述功能的其它装置实施的方法或方法元素的组合。因此，具有用于实施所述方法或方法元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外，装置实施例的在此所述的元素是如下装置的例子：该装置用于实施由为了实施该发明的目的的元素所执行的功能。

如在此所使用的那样，除非另行规定，使用序数词“第一”、“第二”、“第三”等等来描述普通对象仅仅表示涉及类似对象的不同实例，并且并不意图暗示这样被描述的对象必须具有时间上、空间上、排序方面或者以任意其它方式的给定顺序。

尽管根据有限数量的实施例描述了本发明，但是受益于上面的描述，本技术领域内的技术人员明白，在由此描述的本发明的范围内，可以设想其它实施例。此外，应当注意，本说明书中使用的语言主要是为了可读性和教导的目的而选择的，而不是为了解释或者限定本发明的主题而选择的。因此，在不偏离所附权利要求书的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围，对本发明所做的公开是说明性的，而非限制性的，本发明的范围由所附权利要求书限定。

Claims

1.一种生成图像识别模型的方法，适于在计算设备中执行，所述方法包括：

获取具有标注数据的训练图像，所述标注数据包括图像类别和当训练图像属于目标类别时，所述训练图像中目标对象的特征点坐标；

将属于目标类别的训练图像输入预训练的主网络和第一分支网络进行处理，以输出训练图像中对象的特征点坐标，基于标注数据和输出的特征点坐标，训练得到中间的主网络和第一分支网络；

将属于目标类别和不属于目标类别的训练图像均输入中间的主网络和预训练的第二分支网络进行处理，以输出训练图像的类别，基于标注数据和输出的类别，训练得到主网络和第二分支网络；

基于训练得到的主网络、第一分支网络和第二分支网络，生成图像识别模型。

2.如权利要求1所述的方法，其中，所述第一分支网络和第二分支网络并列连接，

所述第一分支网络适于对属于目标类别的训练图像中目标对象的特征点进行回归处理，以输出目标对象的特征点坐标；

所述第二分支网络适于对所有类别的训练图像进行分类处理，以输出图像的类别。

3.如权利要求1所述的方法，其中，所述基于标注数据和输出的特征点坐标，训练得到中间的主网络和第一分支网络的步骤包括：

基于标注数据与输出的特征点坐标之间的第一损失值，调整预训练的主网络和第一分支网络的参数，直到所述第一损失值满足预定条件，训练结束。

4.如权利要求1所述的方法，其中，所述基于标注数据和输出的类别，训练得到主网络和第二分支网络的步骤包括：

基于标注数据与输出类别之间的第二损失值，调整中间的主网络和预训练的第二分支网络的参数，直到所述第二损失值满足预定条件，训练结束。

5.如权利要求1所述的方法，其中，所述图像类别包括：狗脸图像、猫脸图像、人脸图像和其他图像。

6.如权利要求1所述的方法，其中，所述方法还包括：

对训练图像进行预处理，所述预处理包括数据增强处理和对属于目标类别的训练图像进行剪裁处理。

7.一种图像识别方法，适于在计算设备中执行，所述方法包括：

将待识别的图像输入图像识别模型中，以得到图像的类别，并在图像类别为目标类别时，输出图像中目标对象的特征点坐标，

其中，所述图像识别模型基于如权利要求1-6中任意一项中所述的方法生成。

8.如权利要求7所述的方法，其中，所述方法包括：

对待识别的图像进行裁剪，以将裁剪后的图像输入训练后的图像识别模型中。

9.一种计算设备，包括：

存储器；

一个或多个处理器；

一个或多个程序，其中所述一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行根据权利要求1-8所述方法中的任一方法的指令。

10.一种存储一个或多个程序的计算机可读存储介质，所述一个或多个程序包括指令，所述指令当计算设备执行时，使得所述计算设备执行根据权利要求1-8所述的方法中的任一方法的指令。