CN109902716B - 一种对齐分类模型的训练方法和图像分类方法 - Google Patents

一种对齐分类模型的训练方法和图像分类方法 Download PDF

Info

Publication number
CN109902716B
CN109902716B CN201910061366.2A CN201910061366A CN109902716B CN 109902716 B CN109902716 B CN 109902716B CN 201910061366 A CN201910061366 A CN 201910061366A CN 109902716 B CN109902716 B CN 109902716B
Authority
CN
China
Prior art keywords
image
alignment
training
network
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910061366.2A
Other languages
English (en)
Other versions
CN109902716A (zh
Inventor
许益鸿
齐子铭
涂清华
李志阳
张伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Meitu Technology Co Ltd
Original Assignee
Xiamen Meitu Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Meitu Technology Co Ltd filed Critical Xiamen Meitu Technology Co Ltd
Priority to CN201910061366.2A priority Critical patent/CN109902716B/zh
Publication of CN109902716A publication Critical patent/CN109902716A/zh
Application granted granted Critical
Publication of CN109902716B publication Critical patent/CN109902716B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开了一种对齐分类模型的训练方法,对齐分类模型包括主网络、第一分支网络和第二分支网络,方法包括:获取经过标注的训练图像,训练图像具有相应的标注数据,标注数据包含图像的类别;将训练图像输入分类模型中进行训练,以得到训练后的第二分支网络;将训练图像输入对齐分类模型中进行训练,优化第二分支网络,以得到训练后的对齐分类模型。该方案能够提高模型分类的精度,并节约模型训练时间和所需的数据量。

Description

一种对齐分类模型的训练方法和图像分类方法
技术领域
本发明涉及深度学习技术领域,尤其涉及一种对齐分类模型的训练方法和图像分类方法、计算设备及存储介质。
背景技术
猫狗脸分类有广泛的应用场景,例如在给猫狗拍照的过程中,通过区分是猫是狗,加入一些定制化的动画控件,增加用户的拍摄乐趣。但是传统的猫狗脸分类训练方法需要训练的数据量庞大,网络结构复杂,无法适应移动终端对数据大小和训练速度的要求。一方面,对于图像的分类,重新训练一个完整的网络需要耗费大量的时间;另一方面,现有的分类模型主要利用VGG等深度卷积网络从图像中提取特征,这种方法精度高但是耗时耗内存。
目前大部分狗脸点对齐方案利用目标检测和跟踪算法进行实时跟踪。但是由于狗的品种繁多,且活泼好动,导致狗脸检测不稳定,影响预测狗脸点的精度。
因此,需要一种对齐分类模型,能够同时具有对齐和分类的功能,能够进一步提高对齐和分类的准确性。
发明内容
为此,本发明提供了一种对齐分类模型的训练方法和图像分类方法、计算设备及存储介质,以力图解决或者至少缓解上面存在的至少一个问题。
根据本发明的一个方面,提供了一种对齐分类模型的训练方法,适于在计算设备中执行。对齐分类模型包括主网络、第一分支网络和第二分支网络,其中主网络和第一分支网络构成对齐模型,适于输出预测特征点的坐标,主网络和第二分支网络构成分类模型,适于输出预测图像类别的概率。在该方法中,首先获取经过标注的训练图像,训练图像具有相应的标注数据,标注数据包含图像的类别。然后,将训练图像输入分类模型中进行训练,以得到训练后的第二分支网络。最后,将训练图像输入对齐分类模型中进行训练,优化第二分支网络,以得到训练后的对齐分类模型。
可选地,主网络包括由卷积层、激活层、池化层组成的卷积处理层,其中设置有多个分组卷积。
可选地,第一分支网络包括由全连接层和dropout层组成的分类处理层,第二分支网络包括卷积层、激活层、池化层、全连接层和归一化层。
可选地,在上述方法中,训练图像包括狗脸图像、猫脸图像和其他图像。猫脸图像标注为0,狗脸图像标注为1,其他图像标注为2。
可选地,在上述方法中,可以将已标注特征点的图像输入对齐模型中,以输出预测特征点的坐标;基于标注特征点坐标与预测特征点坐标的距离,计算第一损失函数的值;以及基于第一损失函数的值调整对齐模型的参数,以得到训练好的对齐模型。
可选地,在上述方法中,对齐模型为狗脸对齐模型,适于输出狗脸点坐标。
可选地,在上述方法中,可以基于训练好的对齐模型中主网络的参数和正态分布初始化方法,初始化分类模型的参数。然后,基于标注图像类别和预测图像类别,计算第二损失函数的值;以及基于预设的主网络的第一学习率、第二分支网络的第二学习率以及第二损失函数的值,训练分类模型。
可选地,在上述方法中,在达到预定迭代次数的情况下,将主网络的参数重新初始化为训练好的对齐模型中主网络的参数。
可选地,第一学习率大于所述第二学习率。
可选地,在上述方法中,第二损失函数为交叉熵损失函数,交叉熵损失函数可以通过下述公式计算:
Figure BDA0001953940890000021
其中,y′为已标注图像类别,y为预测的图像类别,i为图像的索引。
根据本发明另一个方面,提供了一种图像分类方法,适于在计算设备中执行。包括将待分类图像输入对齐分类模型中,以输出待分类图像所属的图像类别,其中对齐分类模型利用上述对齐分类模型的训练方法来训练生成。
可选地,当待分类图像中包含狗脸图像时,输出预测的狗脸点坐标。
根据本发明另一个方面,提供了一种计算设备,包括:一个或多个处理器;和存储器;一个或多个程序,其中一个或多个程序存储在存储器中并被配置为由一个或多个处理器执行,一个或多个程序包括用于执行如上所述方法中的任一方法的指令。
根据本发明的再一方面,提供了一种存储一个或多个程序的计算机可读存储介质,一个或多个程序包括指令,指令当计算设备执行时,使得计算设备执行如上所述的方法中的任一方法。
根据本发明的方案,首先通过在已训练好的对齐模型中加入分类分支,使模型同时具备分类和对齐的功能。首先利用主网络训练。
附图说明
为了实现上述以及相关目的,本文结合下面的描述和附图来描述某些说明性方面,这些方面指示了可以实践本文所公开的原理的各种方式,并且所有方面及其等效方面旨在落入所要求保护的主题的范围内。通过结合附图阅读下面的详细描述,本公开的上述以及其它目的、特征和优势将变得更加明显。遍及本公开,相同的附图标记通常指代相同的部件或元素。
图1示出了根据本发明的一个实施例的计算设备100的构造示意图;
图2示出了根据本发明的一个实施例的对齐分类模型训练方法200的示意性流程图;
图3示出了根据本发明的一个实施例的对齐模型300的网络结构示意图;
图4示出了根据本发明的一个实施例的第二分支网络400的网络结构示意图;
图5示出了根据本发明的一个实施例的分类模型500的结构示意图;
图6示出了根据本发明的一个实施例的对齐分类模型600的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
图1是示例计算设备100的框图。在基本的配置102中,计算设备100典型地包括系统存储器106和一个或者多个处理器104。存储器总线108可以用于在处理器104和系统存储器106之间的通信。
取决于期望的配置,处理器104可以是任何类型的处理器,包括但不限于:微处理器(μP)、微控制器(μC)、数字信息处理器(DSP)或者它们的任何组合。处理器104可以包括诸如一级高速缓存110和二级高速缓存112之类的一个或者多个级别的高速缓存、处理器核心114和寄存器116。示例的处理器核心114可以包括运算逻辑单元(ALU)、浮点数单元(FPU)、数字信号处理核心(DSP核心)或者它们的任何组合。示例的存储器控制器118可以与处理器104一起使用,或者在一些实现中,存储器控制器118可以是处理器104的一个内部部分。
取决于期望的配置,系统存储器106可以是任意类型的存储器,包括但不限于:易失性存储器(诸如RAM)、非易失性存储器(诸如ROM、闪存等)或者它们的任何组合。系统存储器106可以包括操作系统120、一个或者多个应用122以及程序数据124。在一些实施方式中,应用122可以布置为在操作系统上利用程序数据124进行操作。在一些实施例中,计算设备100被配置为执行对齐分类模型的训练方法200或图像分类方法,程序数据124中就包含了用于执行上述各方法的指令。
计算设备100还可以包括有助于从各种接口设备(例如,输出设备142、外设接口144和通信设备146)到基本配置102经由总线/接口控制器130的通信的接口总线140。示例的输出设备142包括图形处理单元148和音频处理单元150。它们可以被配置为有助于经由一个或者多个A/V端口152与诸如显示器或者扬声器之类的各种外部设备进行通信。示例外设接口144可以包括串行接口控制器154和并行接口控制器156,它们可以被配置为有助于经由一个或者多个I/O端口158和诸如输入设备(例如,键盘、鼠标、笔、语音输入设备、图像输入设备)或者其他外设(例如打印机、扫描仪等)之类的外部设备进行通信。示例的通信设备146可以包括网络控制器160,其可以被布置为便于经由一个或者多个通信端口164与一个或者多个其他计算设备162通过网络通信链路的通信。
网络通信链路可以是通信介质的一个示例。通信介质通常可以体现为在诸如载波或者其他传输机制之类的调制数据信号中的计算机可读指令、数据结构、程序模块,并且可以包括任何信息递送介质。“调制数据信号”可以是这样的信号,它的数据集中的一个或者多个或者它的改变可以在信号中以编码信息的方式进行。作为非限制性的示例,通信介质可以包括诸如有线网络或者专线网络之类的有线介质,以及诸如声音、射频(RF)、微波、红外(IR)或者其它无线介质在内的各种无线介质。这里使用的术语计算机可读介质可以包括存储介质和通信介质二者。在一些实施例中,计算机可读介质中存储一个或多个程序,这一个或多个程序中包括执行某些方法的指令。
计算设备100可以实现为小尺寸便携(或者移动)电子设备的一部分,这些电子设备可以是诸如蜂窝电话、数码照相机、个人数字助理(PDA)、个人媒体播放器设备、无线网络浏览设备、个人头戴设备、应用专用设备、或者可以包括上面任何功能的混合设备。当然,计算设备100也可以实现为包括桌面计算机和笔记本计算机配置的个人计算机,或者是具有上述配置的服务器。本发明的实施方式对此均不作限制。
通过深度学习的方法,利用卷积神经网络训练分类模型,目前已经有很好的解决方案,但是网络结构繁琐,无法适用于移动端有限的资源使用要求。并且重新训练一个完整的网络需要耗费大量的时间和精力。因此本方案提出一种在原有网络基础上加入分类分支的方法,让网络(如猫狗脸对齐网络)具有猫狗分类功能本方案在已训练好的狗脸对齐网络中加入分类网络分支,使训练后的网络同时具有分类和对齐的功能。
图2示出了根据本发明的一个实施例的对齐分类模型训练方法200的示意性流程图。该方法200适于在计算设备100中执行。对齐分类模型由主网络、第一分支网络和第二分支网络组成。其中主网络和第一分支网络构成对齐模型。在本发明的一个实施例中,对齐模型为狗脸对齐模型,能够根据输入的狗脸图像,定位出狗脸特征点,如眼睛、鼻尖、嘴以及轮廓点等。
狗脸对齐模型的训练过程可以包括:首先将已标注特征点的狗脸图像输入对齐模型中,以输出模型预测的特征点坐标。例如每个狗脸图像中包含28个狗脸点的标注,模型输出预测的28个狗脸点的x坐标和y坐标。基于已标注的狗脸点的坐标和对应的预测狗脸点的坐标之间的距离,计算第一损失函数的值。然后使用Adam优化算法调整更新狗脸对齐模型的网络参数,以得到一个训练好的对齐模型。其中,Adam优化算法是随机梯度下降法的扩展,通过计算梯度的一阶矩估计和二阶矩估计,为不同的参数设置独立的自适应学习率,能够基于训练数据迭代地更新神经网络权重。
图3示出了根据本发明的一个实施例的对齐模型300的网络结构示意图。如图3所示,对齐模型300包括卷积处理层和分类处理层。其中卷积处理层包括第一卷积层、第一激活层、第一池化层、第二卷积层、第二激活层、第二池化层、第三卷积层、第三激活层、第三池化层、第四卷积层、第四激活层、第五卷积层、第五激活层和第五池化层,分类处理层包括第一全连接层、第二全连接层、第三全连接层。卷积层可以对输入数据进行特征提取,组成卷积核的每个元素都对应一个权重系数和一个偏差量。卷积操作可以理解成有一个滑动窗口,把卷积核与对应的图像像素做乘积后求和。池化层夹在连续的卷积层中间,用于压缩数据和参数的量,减小过拟合。全连接层用于对结果进行识别分类。
表1示出了根据本发明一个实施例的对齐模型300的部分网络结构参数。
表1对齐模型300的部分网络结构参数
Figure BDA0001953940890000061
Figure BDA0001953940890000071
其中,padding为填充,stride为步长,group=4表示分组卷积。由于卷积核专注于扩大通道数、池化专注于缩小宽和高,使得模型具有更深的架构。在网络中间层中使用Batch Normalization批量归一化层一定程度上能够减缓对较好的网络参数初始化的依赖,使用方差较小的参数分布即可。卷积后都伴有激活函数,能够进一步提取特征。ReLU激活函数属于“非线性激活函数”。ReLU函数将矩阵x内所有负值都设为零,其余的值不变。更多的卷积核的使用可使决策函数更具有辨别能力。卷积层的参数减少。小池化核可以捕获更多的细节信息。如图3所示,卷积处理层包括卷积层、激活层和池化层,中间三组卷积形式一样,最后三个组全连接层。训练时第一全连接层和第二全连接层后面都有概率为0.5的dropout层。Dropout层的作用是减少优化的参数量,避免过拟合。打断节点之间的强联系。在一定程度上等效模型平均,因为每一次迭代dropout都会随机丢弃节点,所以每一次迭代模型的结构都不同,相当于每次迭代都在训练不同的模型。
完成对齐模型的训练后,可以将待检测的狗脸图像输入训练好的对齐模型中,可以输出28个狗脸点的坐标(x1,y1),(x2,y2),(x3,y3),....,(x28,y28)。为了使网络同时具有分类和对齐的功能,可以利用已训练好的对齐网络作为分类模型的主体部分,加入分类分支。理论上可以在训练好的小型对齐模型的任意一层之后接入分类分支。通过多次实验发现在对齐网络的第五池化层之后接入分类分支网络,模型的分类精度最好。
图4示出了根据本发明的一个实施例的第二分支网络400的网络结构示意图。第二分支网络400可以包括卷积层、激活层、最大池化层、卷积层、激活层、平均池化层、全连接层、全连接层和归一化层。表2示出了根据本发明一个实施例的第二分支网络400的部分网络结构参数。
表2第二分支网络400的部分网络结构参数
Figure BDA0001953940890000081
Figure BDA0001953940890000091
其中,激活层可以使用Leaky ReLU激活函数,Leaky ReLU是给所有负值赋予一个非零斜率,例如非零斜率为0.1。池化层可以采用最大池化层和平均池化层。平均池化层即对邻域内特征点只求平均,最大池化层即对邻域内特征点取最大。特征提取的误差主要来自两个方面:邻域大小受限造成的估计值方差增大;卷积层参数误差造成估计均值的偏移。一般来说,平均池化层能减小第一种误差,更多的保留图像的背景信息,最大池化层能减小第二种误差,更多的保留纹理信息。最后经过softmax归一化层进行分类,将训练图像分为三类,输出图像属于每一类别的概率,取最大概率对应的类别为预测图像类别。
根据本发明的一个实施例,将对齐模型的卷积处理层作为主网络,接入第二分支网络构成分类模型。为了使分类模型的训练时间短、分类精度高且具有较强的鲁棒性,可以采用如下方法进行训练。
如图2所示,方法适于步骤S210,获取经过标注的训练图像,训练图像具有相应的标注数据,标注数据包含图像的类别。
例如搜集各类猫脸、狗脸图像,根据本发明的一个实现方式,训练集可以包括11960张猫脸图,14254张狗脸图,并加入16744张无猫狗完整脸的图作为其他类图,真实标签由人工标注,其中猫脸标注为0,狗标注为1,其他标为2。这些图片各种各样,分辨率也不相同,猫狗的形状、姿态、位置、颜色也不一样。
随后在步骤S220中,可以将训练图像输入分类模型中进行训练,以得到训练后的第二分支网络。
深度学习中的权重初始化对模型的收敛速度和模型质量有重要影响。模型训练的本质是对权重进行更新,这需要每个参数有相应的初始值。初始参数的选择应使得损失函数便于被优化。在训练分类模型中,主网络的权重由训练好的对齐模型中的主网络部分初始化。而第二分支网络的权重可以基于正态分布方法进行初始化。
其中,第二分支网络中卷积层和全连接层的参数可以使用glorot初始化方法进行初始化,Glorot正态分布初始化方法使得各层的激活值和状态梯度的方差在传播过程中的方差保持一致。参数由0均值,标准差为sqrt(2/(fan_in+fan_out))的正态分布产生,其中fan_in和fan_out是权重张量的输入和输出单元数量。好的初始化方法可以加快学习的速度(加速模型收敛)。
图5示出了根据本发明的一个实施例的分类模型500的结构示意图。在训练分类模型时以训练第二分支网络的参数为主,为了使第二分支网络的抗扰动能力更强且鲁棒性更好,可以将分类模型中的第二分支网络的学习率远小于主网络的学习率,例如第二分支网络的学习率LC设置为2x10-3,而主网络的学习率LA设置为1/50~1/20之间。根据本发明的一个实施例,基于预设的主网络的第一学习率、第二分支网络的第二学习率以及第二损失函数,训练分类模型。在训练达到预定迭代次数的情况下,将主网络的参数重新初始化为已训练好的对齐模型中主网络的参数。例如每完成10次迭代,将主网络的参数重新设置为已训练好的对齐模型中主网络部分的参数。其中一次迭代等于使用训练集中的全部样本训练一次,等于所有训练样本的一个正向传递和一个反向传递。
第二损失函数可以使用交叉熵损失函数,交叉熵损失函数通过下述公式计算:
Figure BDA0001953940890000111
其中,y′为已标注图像类别(猫脸标注为0,狗脸标注为1,其他类标注为2),y为预测的图像类别,i为图像的索引。
分类模型训练至稳定收敛后,可以把训练好的第二分支网络接入整个对齐模型中,得到对齐分类模型。
最后在步骤S230中,可以将所述训练图像输入对齐分类模型中进行训练,优化所述第二分支网络,以得到训练后的对齐分类模型。
对齐模型的参数不再进行训练,仅对新加入的第二分支网络的参数进行微调优化。第二分支网络的参数可以使用步骤S220中训练得到的参数进行初始化,此时第二分支网络的学习率LCC可以设置为LC的1/50~1/20之间,仍然可以采用交叉熵损失函数进行训练直到网络收敛,得到最终的对齐分类模型。
图6示出了根据本发明的一个实施例的对齐分类模型600的结构示意图。根据本发明的一个实施例,可以将待分类图像输入训练后的对齐分类模型中,以输出待分类图像所属的图像类别,当待分类图像中包含狗脸图像时,同时输出预测的狗脸点坐标。例如测试数据集可以包括192张狗脸图,128张猫脸图,64张其他图。输入任意图像,若图像中包含狗脸,则网络输出分类结果,且原本的对齐网络输出预测的28个狗脸点的坐标;若图像中不包含狗脸,则网络仅输出分类结果猫或是其他(原本的对齐网络输出的脸点结果无效)。经试验测试,猫测试128张图精度达到98.43%,狗测试192张图精度达到98.95%。并且模型小于5Mb,满足移动端速度和模型大小限制要求。
根据本发明的方案,通过在已训练好的卷积神经网络中加入分类网络分支,可以对检测到的狗脸框进一步判定,如果为误检的框则不进行狗脸对齐,若为正确检测的框,则输出狗脸点的坐标,从而现逐提高了实际应用中的检测精度。
A7、如A5所述方法,其中,所述第一学习率大于所述第二学习率。
A8、如A5所述的方法,其中,所述第二损失函数为交叉熵损失函数,所述交叉熵损失函数通过下述公式计算:
Figure BDA0001953940890000121
其中,y′为已标注图像类别,y为预测的图像类别,i为图像的索引。
A9、如A1所述的方法,其中,所述主网络包括由卷积层、激活层、池化层组成的卷积处理层,其中设置有多个分组卷积。
A10、如A1所述的方法,其中,所述第一分支网络包括由多个全连接层和dropout层组成的分类处理层,所述第二分支网络包括卷积层、激活层、池化层、全连接层和归一化层。
应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员应当理解在本文所公开的示例中的设备的模块或单元或组件可以布置在如该实施例中所描述的设备中,或者可替换地可以定位在与该示例中的设备不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
这里描述的各种技术可结合硬件或软件,或者它们的组合一起实现。从而,本发明的方法和设备,或者本发明的方法和设备的某些方面或部分可采取嵌入有形媒介,例如软盘、CD-ROM、硬盘驱动器或者其它任意机器可读的存储介质中的程序代码(即指令)的形式,其中当程序被载入诸如计算机之类的机器,并被所述机器执行时,所述机器变成实践本发明的设备。
在程序代码在可编程计算机上执行的情况下,计算设备一般包括处理器、处理器可读的存储介质(包括易失性和非易失性存储器和/或存储元件),至少一个输入装置,和至少一个输出装置。其中,存储器被配置用于存储程序代码;处理器被配置用于根据该存储器中存储的所述程序代码中的指令,执行本发明所述的方法。
以示例而非限制的方式,计算机可读介质包括计算机存储介质和通信介质。计算机可读介质包括计算机存储介质和通信介质。计算机存储介质存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息。通信介质一般以诸如载波或其它传输机制等已调制数据信号来体现计算机可读指令、数据结构、程序模块或其它数据,并且包括任何信息传递介质。以上的任一种的组合也包括在计算机可读介质的范围之内。
此外,所述实施例中的一些在此被描述成可以由计算机系统的处理器或者由执行所述功能的其它装置实施的方法或方法元素的组合。因此,具有用于实施所述方法或方法元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外,装置实施例的在此所述的元素是如下装置的例子:该装置用于实施由为了实施该发明的目的的元素所执行的功能。
如在此所使用的那样,除非另行规定,使用序数词“第一”、“第二”、“第三”等等来描述普通对象仅仅表示涉及类似对象的不同实例,并且并不意图暗示这样被描述的对象必须具有时间上、空间上、排序方面或者以任意其它方式的给定顺序。
尽管根据有限数量的实施例描述了本发明,但是受益于上面的描述,本技术领域内的技术人员明白,在由此描述的本发明的范围内,可以设想其它实施例。此外,应当注意,本说明书中使用的语言主要是为了可读性和教导的目的而选择的,而不是为了解释或者限定本发明的主题而选择的。因此,在不偏离所附权利要求书的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围,对本发明所做的公开是说明性的,而非限制性的,本发明的范围由所附权利要求书限定。

Claims (14)

1.一种对齐分类模型的训练方法,适于在计算设备中执行,所述对齐分类模型包括主网络、第一分支网络和第二分支网络,所述主网络和第一分支网络构成对齐模型,适于输出预测特征点的坐标,所述主网络和第二分支网络构成分类模型,适于输出预测图像类别的概率,所述方法包括:
获取经过标注的训练图像,所述训练图像具有相应的标注数据,所述标注数据包含图像的类别;
将所述训练图像输入分类模型中进行训练,以得到训练后的第二分支网络;以及
将所述训练图像输入对齐分类模型中进行训练,优化所述第二分支网络,以得到训练后的对齐分类模型。
2.如权利要求1所述的方法,其中,所述训练图像包括狗脸图像、猫脸图像和其他图像,
猫脸图像标注为0,狗脸图像标注为1,其他图像标注为2。
3.如权利要求1所述的方法,其中,所述方法包括:
将已标注特征点的图像输入对齐模型中,以输出预测特征点的坐标;
基于标注特征点坐标与预测特征点坐标的距离,计算第一损失函数的值;以及
基于第一损失函数的值调整对齐模型的参数,以得到训练好的对齐模型。
4.如权利要求3所述的方法,其中,所述对齐模型为狗脸对齐模型,适于输出狗脸点坐标。
5.如权利要求1所述的方法,其中,所述将训练图像输入分类模型中进行训练的步骤包括:
基于训练好的对齐模型中主网络的参数和正态分布初始化方法,初始化分类模型的参数;
基于标注图像类别和预测图像类别,计算第二损失函数的值;以及
基于预设的主网络的第一学习率、第二分支网络的第二学习率以及第二损失函数的值,训练所述分类模型。
6.如权利要求5所述的方法,其中,所述初始化分类模型的参数的步骤包括:
在达到预定迭代次数的情况下,将所述主网络的参数重新初始化为训练好的对齐模型中主网络的参数。
7.如权利要求5所述方法,其中,所述第一学习率大于所述第二学习率。
8.如权利要求5所述的方法,其中,所述第二损失函数为交叉熵损失函数,所述交叉熵损失函数通过下述公式计算:
Figure FDA0002145004170000021
其中,y′为已标注图像类别,y为预测的图像类别,i为图像的索引。
9.如权利要求1所述的方法,其中,所述主网络包括由卷积层、激活层、池化层组成的卷积处理层,其中设置有多个分组卷积。
10.如权利要求1所述的方法,其中,所述第一分支网络包括由多个全连接层和dropout层组成的分类处理层,所述第二分支网络包括卷积层、激活层、池化层、全连接层和归一化层。
11.一种图像分类方法,适于在计算设备中执行,所述方法包括:
将待分类图像输入所述对齐分类模型中,以输出待分类图像所属的图像类别,
其中所述对齐分类模型利用如权利要求1-10中任一项所述的方法来训练生成。
12.如权利要求11所述的方法,其中,所述方法包括:
当待分类图像中包含狗脸图像时,输出预测的狗脸点坐标。
13.一种计算设备,包括:
存储器;
一个或多个处理器;
一个或多个程序,其中所述一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行根据权利要求1-12所述方法中的任一方法的指令。
14.一种存储一个或多个程序的计算机可读存储介质,所述一个或多个程序包括指令,所述指令当计算设备执行时,使得所述计算设备执行根据权利要求1-12所述的方法中的任一方法的指令。
CN201910061366.2A 2019-01-22 2019-01-22 一种对齐分类模型的训练方法和图像分类方法 Active CN109902716B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910061366.2A CN109902716B (zh) 2019-01-22 2019-01-22 一种对齐分类模型的训练方法和图像分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910061366.2A CN109902716B (zh) 2019-01-22 2019-01-22 一种对齐分类模型的训练方法和图像分类方法

Publications (2)

Publication Number Publication Date
CN109902716A CN109902716A (zh) 2019-06-18
CN109902716B true CN109902716B (zh) 2021-01-29

Family

ID=66944021

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910061366.2A Active CN109902716B (zh) 2019-01-22 2019-01-22 一种对齐分类模型的训练方法和图像分类方法

Country Status (1)

Country Link
CN (1) CN109902716B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110334186B (zh) * 2019-07-08 2021-09-28 北京三快在线科技有限公司 数据查询方法、装置、计算机设备及计算机可读存储介质
CN111488915B (zh) * 2020-03-17 2023-04-11 天津大学 一种用于中国画分类的端到端的多任务特征融合方法
CN113538604B (zh) * 2020-04-21 2024-03-19 中移(成都)信息通信科技有限公司 图像生成方法、装置、设备及介质
CN113688851B (zh) * 2020-05-18 2023-09-15 华为云计算技术有限公司 数据标注方法和装置和精细粒度识别方法和装置
CN111798428B (zh) * 2020-07-03 2023-05-30 南京信息工程大学 一种皮肤病理图像多种组织自动分割方法
CN113537151B (zh) * 2021-08-12 2023-10-17 北京达佳互联信息技术有限公司 图像处理模型的训练方法及装置、图像处理方法及装置
CN114049514B (zh) * 2021-10-24 2024-03-19 西北工业大学 一种基于参数重新初始化的图像分类网络压缩方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2869239A3 (en) * 2013-11-04 2015-08-19 Facebook, Inc. Systems and methods for facial representation
CN106446862A (zh) * 2016-10-11 2017-02-22 厦门美图之家科技有限公司 一种人脸检测方法及系统
CN107038429A (zh) * 2017-05-03 2017-08-11 四川云图睿视科技有限公司 一种基于深度学习的多任务级联人脸对齐方法
CN108090470A (zh) * 2018-01-10 2018-05-29 浙江大华技术股份有限公司 一种人脸对齐方法及装置
CN108256426A (zh) * 2017-12-15 2018-07-06 安徽四创电子股份有限公司 一种基于卷积神经网络的人脸表情识别方法
CN108446672A (zh) * 2018-04-20 2018-08-24 武汉大学 一种基于由粗到细脸部形状估计的人脸对齐方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170236284A1 (en) * 2016-02-13 2017-08-17 University Of Rochester Registration of aerial imagery to vector road maps with on-road vehicular detection and tracking

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2869239A3 (en) * 2013-11-04 2015-08-19 Facebook, Inc. Systems and methods for facial representation
CN106446862A (zh) * 2016-10-11 2017-02-22 厦门美图之家科技有限公司 一种人脸检测方法及系统
CN107038429A (zh) * 2017-05-03 2017-08-11 四川云图睿视科技有限公司 一种基于深度学习的多任务级联人脸对齐方法
CN108256426A (zh) * 2017-12-15 2018-07-06 安徽四创电子股份有限公司 一种基于卷积神经网络的人脸表情识别方法
CN108090470A (zh) * 2018-01-10 2018-05-29 浙江大华技术股份有限公司 一种人脸对齐方法及装置
CN108446672A (zh) * 2018-04-20 2018-08-24 武汉大学 一种基于由粗到细脸部形状估计的人脸对齐方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Deeply-learned part-aligned representations for person re-identification;ZHAO L等;《ICCV》;20171231;全文 *
基于随机擦除行人对齐网络的行人重识别方法;金翠等;《山东大学学报》;20181231;第48卷(第6期);全文 *

Also Published As

Publication number Publication date
CN109902716A (zh) 2019-06-18

Similar Documents

Publication Publication Date Title
CN109902716B (zh) 一种对齐分类模型的训练方法和图像分类方法
WO2021169723A1 (zh) 图像识别方法、装置、电子设备及存储介质
CN107977707B (zh) 一种对抗蒸馏神经网络模型的方法及计算设备
CN110334765B (zh) 基于注意力机制多尺度深度学习的遥感影像分类方法
CN110096964B (zh) 一种生成图像识别模型的方法
CN107967484B (zh) 一种基于多分辨率的图像分类方法
CN112651438A (zh) 多类别图像的分类方法、装置、终端设备和存储介质
CN109978063B (zh) 一种生成目标对象的对齐模型的方法
CN108898142B (zh) 一种手写公式的识别方法及计算设备
US9613296B1 (en) Selecting a set of exemplar images for use in an automated image object recognition system
CN110222330B (zh) 语义识别方法及装置、存储介质、计算机设备
CN111414946B (zh) 基于人工智能的医疗影像的噪声数据识别方法和相关装置
CN111428557A (zh) 基于神经网络模型的手写签名的自动校验的方法和装置
JP2021536083A (ja) 深層モデルの訓練方法及びその装置、電子機器並びに記憶媒体
CN111582267B (zh) 一种文本检测方法、计算设备及可读存储介质
WO2019228316A1 (zh) 动作识别方法和装置
CN111753863A (zh) 一种图像分类方法、装置、电子设备及存储介质
CN110705489B (zh) 目标识别网络的训练方法、装置、计算机设备和存储介质
CN111583100A (zh) 图像处理方法、装置、电子设备及存储介质
CN109583367A (zh) 图像文本行检测方法及装置、存储介质和电子设备
CN111553838A (zh) 模型参数的更新方法、装置、设备及存储介质
CN113642400A (zh) 基于2s-agcn的图卷积动作识别方法、装置及设备
CN111062440B (zh) 一种样本选择方法、装置、设备及存储介质
CN114897782B (zh) 基于生成式对抗网络的胃癌病理切片图像分割预测方法
CN113011532A (zh) 分类模型训练方法、装置、计算设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant