CN114267062A - 模型训练方法、电子设备和计算机可读存储介质 - Google Patents
模型训练方法、电子设备和计算机可读存储介质 Download PDFInfo
- Publication number
- CN114267062A CN114267062A CN202111487041.4A CN202111487041A CN114267062A CN 114267062 A CN114267062 A CN 114267062A CN 202111487041 A CN202111487041 A CN 202111487041A CN 114267062 A CN114267062 A CN 114267062A
- Authority
- CN
- China
- Prior art keywords
- model
- training
- segmentation result
- training sample
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012549 training Methods 0.000 title claims abstract description 301
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000012545 processing Methods 0.000 claims abstract description 24
- 238000011176 pooling Methods 0.000 claims abstract description 16
- 230000011218 segmentation Effects 0.000 claims description 116
- 230000006870 function Effects 0.000 claims description 56
- 238000012360 testing method Methods 0.000 claims description 21
- 238000000926 separation method Methods 0.000 claims description 10
- 238000010586 diagram Methods 0.000 claims description 9
- 238000010606 normalization Methods 0.000 claims description 5
- 238000005070 sampling Methods 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 4
- 230000003190 augmentative effect Effects 0.000 claims description 2
- 238000004364 calculation method Methods 0.000 abstract description 3
- 238000004458 analytical method Methods 0.000 description 27
- 238000012795 verification Methods 0.000 description 10
- 238000004821 distillation Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 5
- 241000282414 Homo sapiens Species 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000013461 design Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Landscapes
- Image Analysis (AREA)
Abstract
本申请实施例涉及计算机视觉技术领域,公开了一种模型训练方法、电子设备和计算机可读存储介质,该方法包括:构建第一模型,第一模型包括用于进行池化和下采样处理的第一模块,以及用于进行扩大感受野和上采样处理的第二模块;根据第一训练样本对第一模型进行第一训练,得到完成第一训练的第一模型;根据第二训练样本和预训练的第二模型对完成第一训练的第一模型进行第二训练,得到完成第二训练的第一模型,第二模型包括由堆叠的卷积和跳跃连接组成的编码器,以及由堆叠的转置卷积和空洞卷积组成的解码器,训练出的第一模型的参数较少,推理速度很快,可以部署在移动终端上,并且能够在大幅减少计算量的同时保持高性能。
Description
技术领域
本申请实施例涉及计算机视觉技术领域,特别涉及一种模型训练方法、电子设备和计算机可读存储介质。
背景技术
随着计算机视觉和神经网络技术的飞速发展,以人类本身为核心的研究方向层出不穷,其中,针对人脸图像相关内容的研究最为广泛,比如人脸识别、人脸属性分析、人脸关键点检测和人脸解析等,人脸解析技术旨在通过各种算法将人脸的各子区域区分开,根据实际情况的具体需求的不同,人脸解析技术在一般情况下可以将人脸解析出嘴唇、脸颊、头发、眼睛、鼻子等子区域,该技术可以为下游产业的应用,比如人脸老龄化研究、虚拟换妆、表情识别等技术提供先验知识。
人脸解析技术可以基于部署好的预先训练的人脸解析模型实现,人脸解析模型的整体网络可以是对称结构,输入图像先经过卷积和下采样处理来提取特征,然后再经过卷积和上采样处理来扩大分辨率,其中,对称结构中对称的子模块之间可以添加跳跃连接结构进行特征复用,模型最后的输出为原始分辨率的输出。
然而,由于人脸解析技术的本质是逐像素的分类问题,因此在神经网络的算法设计上,也就是人脸解析模型需要使用全图输入、全图输出的处理,这导致模型的计算量过大,无法部署到计算能力较弱的移动终端上去。
发明内容
本申请实施例的目的在于提供一种模型训练方法、电子设备和计算机可读存储介质,模型参数较少,推理速度很快,可以部署在移动终端上,并且能够在大幅减少计算量的同时保持高精度的人脸解析。
为解决上述技术问题,本申请的实施例提供了一种模型训练方法,包括以下步骤:构建第一模型;其中,所述第一模型包括第一模块和第二模块,所述第一模块用于进行池化和下采样处理,所述第二模块用于进行扩大感受野和上采样处理;根据第一训练样本对所述第一模型进行第一训练,得到完成第一训练的所述第一模型;根据第二训练样本和预训练的第二模型对完成第一训练的所述第一模型进行第二训练,得到完成第二训练的所述第一模型;其中,所述第二模型包括编码器和解码器,所述编码器由堆叠的卷积和跳跃连接组成,所述解码器由堆叠的转置卷积和空洞卷积组成。
本申请的实施例还提供了一种电子设备,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述模型训练方法。
本申请的实施例还提供了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现上述模型训练方法。
本申请实施例提供的模型训练方法、电子设备和计算机可读存储介质,先构建第一模型,第一模型包括用于进行池化和下采样第一模块,以及用于进行上采样和扩大感受野的第二模块,第一模型构建完成后,根据第一训练样本对所述第一模型进行第一训练,得到完成第一训练的第一模型,第一训练为只针对第一模型的单独训练,再根据第二训练样本和预训练的第二模型对完成第一训练的第一模型进行第二训练,得到完成第二训练的第一模型,第二模型即传统的人脸解析模型,包括由堆叠的卷积和跳跃连接组成的编码器,以及由堆叠的转置卷积和空洞卷积组成,考虑到人脸解析模型需要使用全图输入、全图输出的处理,传统的人脸解析模型,即第二模型的计算量过大,无法部署到计算能力较弱的移动终端上使用,而本申请的实施例,构建了模块化、轻量化的第一模型,没有大量堆叠的卷积,也没有复杂的跳跃连接结构,模型参数较少,推理速度很快,可以部署在移动终端上,同时第一模型在训练时先单独训练,再结合预训练的第二模型进行联合训练、蒸馏训练,使得第一模型能够在大幅减少计算量的同时保持高精度的人脸解析。
另外,所述根据第一训练样本对所述第一模型进行第一训练,得到完成第一训练的所述第一模型,包括:将所述第一训练样本、1/2分辨率的所述第一训练样本和1/4分辨率的所述第一训练样本输入至所述第一模型中,得到所述第一模型输出的对所述第一训练样本的第一分割结果、对1/2分辨率的所述第一训练样本的第二分割结果和对1/4分辨率的所述第一训练样本第三分割结果;其中,所述第一训练样本标注有表征真实分割结果的第一标签;根据所述第一分割结果、所述第二分割结果、所述第三分割结果、所述第一标签和预设参数构建第一损失函数,对所述第一模型进行第一训练;对第一训练后的所述第一模型进行测试,若第一训练后的所述第一模型的测试结果满足第一预设指标,则输出完成第一训练的所述第一模型,本申请构建的第一模型在进行第一训练时支持多分辨率输入输出,分别输入原始分辨率的第一训练样本、1/2分辨率的第一训练样本和1/4分辨率的第一训练样本,根据第一模型对三者的多分辨率输出,也就是分割结果构建损失函数进行训练,能够使第一模型快速获得基础的人脸解析能力。
另外,所述根据第二训练样本和预训练的第二模型对完成第一训练的所述第一模型进行第二训练,得到完成第二训练的所述第一模型,包括:将所述第二样本分别输入至预训练的第二模型和完成第一训练的所述第一模型中,得到所述第二模型输出的对所述第二训练样本的第四分割结果,和完成第一阶段训练的所述第一模型输出的对所述第二训练样本的第五分割结果;其中,所述第二训练样本标注有表征真实分割结果的第二标签;根据所述第四分割结果、所述第五分割结果、所述第二标签和预设的损失权重构建第二损失函数,对完成第一训练的所述第一模型进行第二训练;对第二训练后的所述第一模型进行测试,若第二训练后的所述第一模型的测试结果满足第二预设指标,则输出完成第二训练的所述第一模型,本申请的实施例对第一模型的第二训练是基于模型蒸馏方法的联合训练,第二模型已具备很强大的人脸解析能力,根据第一模型的输出和第二模型的输出来弓箭第二损失函数,使用第二损失函数对第一模型进行第二训练,可以大幅度提升第一模型的训练效果,使得第一模型获得强大的人脸解析能力。
另外,在所述根据所述第四分割结果、所述第五分割结果、所述第二标签和预设的损失权重构建第二损失函数之前,还包括:获取完成第一训练的所述第一模型的中间层输出的第一特征图和所述第二模型的中间层输出的第二特征图;其中,所述第一特征图包括原始分辨率对应的特征图、1/2分辨率对应的特征图和1/4分辨率对应的特征图;所述根据所述第四分割结果、所述第五分割结果、所述第二标签和预设的损失权重构建第二损失函数,包括:根据所述第四分割结果、所述第五分割结果、所述第一特征图、所述第二特征图、所述第二标签和预设的损失权重构建第二损失函数,本申请的实施例在构建第二损失函数时,不仅考虑第一模型、第二模型最终的输出,还参考第一模型、第二模型中间层的输出,可以进一步提升第一模型的训练效果,进一步提升第一模型的人脸解析能力。
附图说明
一个或多个实施例通过与之对应的附图中的图片进行示例性说明,这些示例性说明并不构成对实施例的限定。
图1是根据本申请的一个实施例的模型训练方法的流程图;
图2是根据本申请的一个实施例中提供的一种的第一模型的第一模块的示意图;
图3是根据本申请的一个实施例中提供的一种的第一模型的第二模块的示意图;
图4是根据本申请的一个实施例中,根据第一训练样本对第一模型进行第一训练,得到完成第一训练的第一模型的流程图;
图5是根据本申请的一个实施例中,根据第二训练样本和预训练的第二模型对完成第一训练的第一模型进行第二训练,得到完成第二训练的第一模型的流程图一;
图6是根据本申请的另一个实施例中,根据第二训练样本和预训练的第二模型对完成第一训练的第一模型进行第二训练,得到完成第二训练的第一模型的流程图二;
图7是根据本申请的另一个实施例的电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合附图对本申请的各实施例进行详细的阐述。然而,本领域的普通技术人员可以理解,在本申请各实施例中,为了使读者更好地理解本申请而提出了许多技术细节。但是,即使没有这些技术细节和基于以下各实施例的种种变化和修改,也可以实现本申请所要求保护的技术方案。以下各个实施例的划分是为了描述方便,不应对本申请的具体实现方式构成任何限定,各个实施例在不矛盾的前提下可以相互结合相互引用。
为了方便理解本发明的实施例,首先在此介绍本申请实施例描述中引入的“模型蒸馏”的相关内容。
模型蒸馏就是将训练好的复杂模型的“知识”迁移到一个结构更为简单的网络中,或者通过简单的网络去学习复杂模型中“知识”,比如“教师模型”和“学生模型”,教师模型往往是一个更加复杂的网络,具有非常好的性能和泛化能力,可以用教师模型来指导另外一个更加简单的学生模型来学习,使得更加简单、参数运算量更少的学生模型也能够具有和教师模型相近的性能。
本申请的一个实施例涉及一种模型训练方法,应用于电子设备,其中,电子设备可以为终端或服务器,本实施例以及以下个各个实施例中电子设备以服务器为例进行说明,下面对本实施例的模型训练方法的实现细节进行具体的说明,以下内容仅为方便理解提供的实现细节,并非实施本方案的必须。
本实施例的模型训练方法的具体流程可以如图1所示,包括:
步骤101,构建第一模型,第一模型包括第一模块和第二模块,第一模块用于进行池化和下采样处理,第二模块用于进行扩大感受野和上采样处理。
具体而言,服务器先构建结构简单的第一模型,也就是模型蒸馏中的学生模型,服务器构建的第一模型包括第一模块和第二模块,第二模块位于第一模块之后,第一模块用于对输入至第一模型的图像进行池化和下采样处理,第二模块用于对第一模块传输来的数据进行扩大感受野和上采样处理,第一模型使用轻量级的模块化组件,需要学习的参数量比较少,学习速度也比较快,这样的模型训练好后可以部署在移动终端等计算能力较弱的设备中。
在具体实现中,服务器构建的第一模型中可以包括若干个第一模块和若干个第二模块,若干个第二模块均位于若干个第一模块之后,第一模块和第二模块的数量,可以由本领域的技术人员根据实际需要进行设置,本申请的实施例对此不作具体限定。
在一个例子中,服务器构建的第一模型的第一模块包括用于进行下采样处理的第一通道和用于进行池化处理的第二通道,第一通道包括两个1*1的密集卷积和一个使用深度分离的3*3卷积,第二通道包括池化层,服务器构建的第一模块还设置有步长,步长可以为1或2,当步长设置为1时,第一通道不进行下采样处理,并且第二通道不进行池化处理,当步长设置为2时,第一通道进行下采样处理,并且第二通道进行池化处理。
示例性地,服务器构建的第一模型的第一模块可以如图2所示,其中,第一通道中包括两个CONV 1*1,即两个1*1的密集卷积,以及一个DWCONV 3*3,即一个使用深度分离的3*3卷积,第二通道中包括Max_pooling,即池化层,第一通道的输出与第二通道的输出进行叠加,即合并输出。
在另一个例子中,第一通道中1*1的密集卷积的个数和使用深度分离的3*3卷积的个数,均可以由本领域的技术人员根据实际需要进行设置。
在一个例子中,服务器构建的第一模型的第二模块包括用于进行上采样处理的第三通道和用于进行扩大感受野处理的第四通道,第四通道包括一个使用深度分离的3*3转置卷积、一个使用深度分离的3*3空洞卷积和一个1*1的密集卷积。
示例性地,服务器构建的第一模型的第二模块可以如图3所示,其中,第三通道包括一个双线性插值单元Bilinear,通过双线性插值的方法对输入数据进行上采样处理,以扩大特征分辨率,第四通道包括一个DW_TCONV 3*3,即使用深度分离的3*3转置卷积,一个DW_TCONV 3*3,即使用深度分离的3*3空洞卷积,以及一个CONV 1*1,即1*1的密集卷积,第三通道的输出与第四通道的输出进行叠加,即合并输出。
步骤102,根据第一训练样本对第一模型进行第一训练,得到完成第一训练的第一模型。
在具体实现中,第一模型构建完成后,服务器可以获取第一训练样本,根据第一训练样本对第一模型进行第一训练,即仅针对第一模型的单独训练,从而得到完成第一训练的第一模型。
步骤103,根据第二训练样本和预训练的第二模型对完成第一训练的第一模型进行第二训练,得到完成第二训练的第一模型。
具体而言,服务器完成对第一模型的第一训练,即得到完成第一训练的第一模型后,可以根据第二训练样本和预训练的第二模型对完成第一训练的第一模型进行第二训练,预训练的第二模型即模型蒸馏中的教师模型,服务器对完成第一训练的第一模型进行的第二训练即对完成第一训练的第一模型的联合训练,从而得到完成第二训练的第一模型。
在具体实现中,预训练的第二模型包括编码器和解码器,编码器由堆叠的卷积和跳跃连接组成,解码器由堆叠的转置卷积和空洞卷积组成,输入数据在编码器中逐渐进行下采样处理和卷积处理,在解码器中逐渐进行上采样处理和扩大感受野,其中,转置卷积用于进行上采样处理,空洞卷积用于扩大感受野。
在一个例子中,第二模型的编码器可以为训练好的,去除最后的分类层的ResNet101。
在一个例子中,第二模型也可以是服务器自己构建的,服务器可以根据第三训练样本对第二模型进行训练,第三训练样本标注有表征真实分割结果的第三标签,服务器将第三训练样本输入至第二模型中,得到第二模型输出的对第三训练样本的分割结果,服务器根据第二模型输出的对第三训练样本的分割结果和第三标签构建第三损失函数,使用第三损失函数对第二模型进行训练,从而得到预训练的第二模型。
在一个例子中,服务器构建的第三损失函数可以通过以下公式表示:
式中,Lt为第三损失函数,pGT3为第三标签,pt为第二模型输出的对第三训练样本的分割结果,B为第三训练样本的个数,M为第二模型能分割出的类别数,softmax函数为归一化处理函数。
本实施例,服务器先构建第一模型,第一模型包括用于进行池化和下采样第一模块,以及用于进行上采样和扩大感受野的第二模块,第一模型构建完成后,根据第一训练样本对所述第一模型进行第一训练,得到完成第一训练的第一模型,第一训练为只针对第一模型的单独训练,再根据第二训练样本和预训练的第二模型对完成第一训练的第一模型进行第二训练,得到完成第二训练的第一模型,第二模型即传统的人脸解析模型,包括由堆叠的卷积和跳跃连接组成的编码器,以及由堆叠的转置卷积和空洞卷积组成,考虑到人脸解析模型需要使用全图输入、全图输出的处理,传统的人脸解析模型,即第二模型的计算量过大,无法部署到计算能力较弱的移动终端上使用,而本申请的实施例,构建了模块化、轻量化的第一模型,没有大量堆叠的卷积,也没有复杂的跳跃连接结构,模型参数较少,推理速度很快,可以部署在移动终端上,同时第一模型在训练时先单独训练,再结合预训练的第二模型进行联合训练、蒸馏训练,使得第一模型能够在大幅减少计算量的同时保持高精度的人脸解析。
在一个实施例中,服务器根据第一训练样本对第一模型进行第一训练,得到完成第一训练的第一模型,可以通过如图4所示的各步骤实现,具体包括:
步骤201,将第一训练样本、1/2分辨率的第一训练样本和1/4分辨率的第一训练样本输入至第一模型中,得到第一模型输出的对第一训练样本的第一分割结果、对1/2分辨率的第一训练样本的第二分割结果和对1/4分辨率的第一训练样本的第三分割结果。
具体而言,服务器构建的第一模型有三个输入端口,分别可以输入原始分辨率的数据、1/2分辨率的数据和1/4分辨率的数据,每个输入端口下均连接有若干第一模块和若干第二模块,各分辨率输入下的轻量化模块之间可以设置有跳跃连接,以进行特征复用,第一模型还有三个输出端口,分别输出对原始分辨率的数据的分割结果、对1/2分辨率的数据的分割结果和对1/4分辨率的数据的分割结果。
在具体实现中,第一训练样本标注有表征真实分割结果的第一标签,服务器获取到第一训练样本后,可以对第一训练样本,即原始分辨率的第一训练样本进行处理,得到1/2分辨率的第一训练样本和1/4分辨率的第一训练样本,服务器将原始分辨率的第一训练样本、1/2分辨率的第一训练样本和1/4分辨率的第一训练样本分别输入至第一模型的三个输入端口中,得到第一模型输出的对原始分辨率的第一训练样本的第一分割结果、对1/2分辨率的第一训练样本的第二分割结果和对1/4分辨率的第一训练样本的第三分割结果。
步骤202,根据第一分割结果、第二分割结果、第三分割结果、第一标签和预设参数构建第一损失函数,对第一模型进行第一训练。
在具体实现中,服务器得到第一模型输出的第一分割结果、第二分割结果和第三分割结果后,可以根据第一分割结果、第二分割结果、第三分割结果、第一训练样本标注的第一标签和预设参数,构建第一损失函数,使用第一损失函数,对第一模型进行迭代训练,即第一训练。
在一个例子中,第一训练样本为若干个,服务器根据第一分割结果、第二分割结果、第三分割结果、第一标签和预设参数构建的第一损失函数可以通过以下公式表示:
Lmulti=αL1+βL2+λL3
式中,Lmulti为第一损失函数,α、β和λ为预设参数,一般情况下,α和β的取值范围为[0,0.8],λ取值为1,pGT1为第一标签,p1为第一分割结果,p2为第二分割结果,p3为第三分割结果,N为第一训练样本的个数,M为第一模型能分割出的类别数,softmax函数为归一化处理函数。
步骤203,对第一训练后的第一模型进行测试,若第一训练后的第一模型的测试结果满足第一预设指标,则输出完成第一训练的第一模型。
在具体实现中,服务器在进行第一训练时,同时获取第一训练样本集和第一验证样本集,第一训练样本集中包括若干第一训练样本,第一验证样本集中包括若干第一验证样本,服务器对第一模型进行第一训练后,可以基于第一验证样本集中的第一验证样本对第一训练后的第一模型进行测试,若第一训练后的第一模型的测试结果满足第一预设指标,服务器可以输出完成第一训练的第一模型,若第一训练后的第一模型的测试结果不满足第一预设指标,服务器对第一模型返训,即重新对第一模型进行第一训练,直到第一训练后的第一模型的测试结果满足第一预设指标,其中,第一预设指标可以由本领域的技术人员根据实际需要进行设置,考虑到第一训练后的第一模型只具有基础的人脸解析能力,精度较差,因此第一预设指标不能设置过于严格。
本实施例,所述根据第一训练样本对所述第一模型进行第一训练,得到完成第一训练的所述第一模型,包括:将所述第一训练样本、1/2分辨率的所述第一训练样本和1/4分辨率的所述第一训练样本输入至所述第一模型中,得到所述第一模型输出的对所述第一训练样本的第一分割结果、对1/2分辨率的所述第一训练样本的第二分割结果和对1/4分辨率的所述第一训练样本第三分割结果;其中,所述第一训练样本标注有表征真实分割结果的第一标签;根据所述第一分割结果、所述第二分割结果、所述第三分割结果、所述第一标签和预设参数构建第一损失函数,对所述第一模型进行第一训练;对第一训练后的所述第一模型进行测试,若第一训练后的所述第一模型的测试结果满足第一预设指标,则输出完成第一训练的所述第一模型,本申请构建的第一模型在进行第一训练时支持多分辨率输入输出,分别输入原始分辨率的第一训练样本、1/2分辨率的第一训练样本和1/4分辨率的第一训练样本,根据第一模型对三者的多分辨率输出,也就是分割结果构建损失函数进行训练,能够使第一模型快速获得基础的人脸解析能力。
在一个实施例中,服务器根据第二训练样本和预训练的第二模型对完成第一训练的第一模型进行第二训练,得到完成第二训练的第一模型,可以通过如图5所示的各步骤实现,具体包括:
步骤301,将第二样本分别输入至预训练的第二模型和完成第一训练的第一模型中,得到第二模型输出的对第二训练样本的第四分割结果,和完成第一阶段训练的第一模型输出的对第二训练样本的第五分割结果。
在具体实现中,服务器完成对第一模型的第一训练后,可以封闭1/2分辨率和1/4分辨率的输入端口,以及1/2分辨率和1/4分辨率的输出端口,第二训练样本标注有表征真实分割结果的第二标签,服务器获取到第二训练样本后,可以将第二样本分别输入至预训练的第二模型和完成第一训练的第一模型中,得到第二模型输出的对第二训练样本的第四分割结果,以及完成第一阶段训练的第一模型输出的对第二训练样本的第五分割结果。
步骤302,根据第四分割结果、第五分割结果、第二标签和预设的损失权重构建第二损失函数,对完成第一训练的第一模型进行第二训练。
在具体实现中,服务器得到第四分割结果和第五分割结果后,可以根据第四分割结果、第五分割结果、第二标签和预设的损失权重,构建第二损失函数,使用第二损失函数对完成第一训练的第一模型进行迭代训练,即第二训练。
步骤303,对第二训练后的第一模型进行测试,若第二训练后的第一模型的测试结果满足第二预设指标,则输出完成第二训练的第一模型。
在具体实现中,服务器在进行第二训练时,同时获取第二训练样本集和第二验证样本集,第二训练样本集中包括若干第二训练样本,第二验证样本集中包括若干第二验证样本,服务器对第一模型进行第二训练后,可以基于第二验证样本集中的第二验证样本对第二训练后的第一模型进行测试,若第二训练后的第一模型的测试结果满足第二预设指标,服务器可以输出完成第二训练的第一模型,若第二训练后的第一模型的测试结果不满足第二预设指标,服务器对第一模型返训,即重新对第一模型进行第二训练,直到第二训练后的第一模型的测试结果满足第二预设指标,其中,第二预设指标可以由本领域的技术人员根据实际需要进行设置,第二训练后的第一模型应该具有很强大的人脸解析能力,精度很高,因此第二预设指标可以设置得很高,至少第二预设指标比第一预设指标严格。
本实施例,所述根据第二训练样本和预训练的第二模型对完成第一训练的所述第一模型进行第二训练,得到完成第二训练的所述第一模型,包括:将所述第二样本分别输入至预训练的第二模型和完成第一训练的所述第一模型中,得到所述第二模型输出的对所述第二训练样本的第四分割结果,和完成第一阶段训练的所述第一模型输出的对所述第二训练样本的第五分割结果;其中,所述第二训练样本标注有表征真实分割结果的第二标签;根据所述第四分割结果、所述第五分割结果、所述第二标签和预设的损失权重构建第二损失函数,对完成第一训练的所述第一模型进行第二训练;对第二训练后的所述第一模型进行测试,若第二训练后的所述第一模型的测试结果满足第二预设指标,则输出完成第二训练的所述第一模型,本申请的实施例对第一模型的第二训练是基于模型蒸馏方法的联合训练,第二模型已具备很强大的人脸解析能力,根据第一模型的输出和第二模型的输出来弓箭第二损失函数,使用第二损失函数对第一模型进行第二训练,可以大幅度提升第一模型的训练效果,使得第一模型获得强大的人脸解析能力。
在另一个实施例中,服务器根据第二训练样本和预训练的第二模型对完成第一训练的第一模型进行第二训练,得到完成第二训练的第一模型,可以通过如图6所示的各步骤实现,具体包括:
步骤401,将第二样本分别输入至预训练的第二模型和完成第一训练的第一模型中,得到第二模型输出的对第二训练样本的第四分割结果,和完成第一阶段训练的第一模型输出的对第二训练样本的第五分割结果。
其中,步骤401与步骤301大致相同,此处不再赘述。
步骤402,获取完成第一训练的第一模型的中间层输出的第一特征图和第二模型的中间层输出的第二特征图。
在具体实现中,服务器在对模型进行第二训练时,可以为完成第一训练的第一模型的中间层添加输出端口,为第二模型的中间层添加输出端口,获取完成第一训练的第一模型的中间层输出的第一特征图和第二模型的中间层输出的第二特征图,其中,第一特征图包括原始分辨率对应的特征图、1/2分辨率对应的特征图和1/4分辨率对应的特征图。
步骤403,根据第四分割结果、第五分割结果、第一特征图、第二特征图、第二标签和预设的损失权重构建第二损失函数,对完成第一训练的第一模型进行第二训练。
在具体实现中,服务器得到第四分割结果和第五分割结果后,可以根据第四分割结果、第五分割结果、第一特征图、第二特征图、第二标签和预设的损失权重,构建第二损失函数,使用第二损失函数对完成第一训练的第一模型进行迭代训练,即第二训练。
在一个例子中,第二训练样本为若干个,第一模型与第二模型能分割出的类别数相同,服务器根据第四分割结果、第五分割结果、第一特征图、第二特征图、第二标签和预设的损失权重构建的第二损失函数可以通过以下公式表示:
Ls=LGT+Lfea+σ*Lsoft
softmax[ps(i,j)]*|softmax[ps(i,j)]softmax[ps(i,j)]/softmax[pt(i,j)]|式中,Ls为第二损失函数,σ为预设的损失权重,在一般情况下,σ在[10,20]之间取值。pGT2为第二标签,ps为第五分割结果,pt为第四分割结果,fs为第一特征图,ft为第二特征图,D为第二训练样本的个数,M为第一模型和第二模型能分割出的类别数,softmax函数为归一化处理函数,w为第二训练样本的宽度,h为第二训练样本的高度。
步骤404,对第二训练后的第一模型进行测试,若第二训练后的第一模型的测试结果满足第二预设指标,则输出完成第二训练的第一模型。
其中,步骤404与步骤303大致相同,此处不再赘述。
本实施例,在所述根据所述第四分割结果、所述第五分割结果、所述第二标签和预设的损失权重构建第二损失函数之前,还包括:获取完成第一训练的所述第一模型的中间层输出的第一特征图和所述第二模型的中间层输出的第二特征图;其中,所述第一特征图包括原始分辨率对应的特征图、1/2分辨率对应的特征图和1/4分辨率对应的特征图;所述根据所述第四分割结果、所述第五分割结果、所述第二标签和预设的损失权重构建第二损失函数,包括:根据所述第四分割结果、所述第五分割结果、所述第一特征图、所述第二特征图、所述第二标签和预设的损失权重构建第二损失函数,本申请的实施例在构建第二损失函数时,不仅考虑第一模型、第二模型最终的输出,还参考第一模型、第二模型中间层的输出,可以进一步提升第一模型的训练效果,进一步提升第一模型的人脸解析能力。
上面各种方法的步骤划分,只是为了描述清楚,实现时可以合并为一个步骤或者对某些步骤进行拆分,分解为多个步骤,只要包括相同的逻辑关系,都在本专利的保护范围内;对算法中或者流程中添加无关紧要的修改或者引入无关紧要的设计,但不改变其算法和流程的核心设计都在该专利的保护范围内。
本申请另一个实施例涉及一种电子设备,如图7所示,包括:至少一个处理器501;以及,与所述至少一个处理器501通信连接的存储器502;其中,所述存储器502存储有可被所述至少一个处理器501执行的指令,所述指令被所述至少一个处理器501执行,以使所述至少一个处理器501能够执行上述各实施例中的模型训练方法。
其中,存储器和处理器采用总线方式连接,总线可以包括任意数量的互联的总线和桥,总线将一个或多个处理器和存储器的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件,也可以是多个元件,比如多个接收器和发送器,提供用于在传输介质上与各种其他装置通信的单元。经处理器处理的数据通过天线在无线介质上进行传输,进一步,天线还接收数据并将数据传送给处理器。
处理器负责管理总线和通常的处理,还可以提供各种功能,包括定时,外围接口,电压调节、电源管理以及其他控制功能。而存储器可以被用于存储处理器在执行操作时所使用的数据。
本申请另一个实施例涉及一种计算机可读存储介质,存储有计算机程序。计算机程序被处理器执行时实现上述方法实施例。
即,本领域技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,简称:ROM)、随机存取存储器(Random Access Memory,简称:RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本领域的普通技术人员可以理解,上述各实施例是实现本申请的具体实施例,而在实际应用中,可以在形式上和细节上对其作各种改变,而不偏离本申请的精神和范围。
Claims (10)
1.一种模型训练方法,其特征在于,包括:
构建第一模型;其中,所述第一模型包括第一模块和第二模块,所述第一模块用于进行池化和下采样处理,所述第二模块用于进行扩大感受野和上采样处理;
根据第一训练样本对所述第一模型进行第一训练,得到完成第一训练的所述第一模型;
根据第二训练样本和预训练的第二模型对完成第一训练的所述第一模型进行第二训练,得到完成第二训练的所述第一模型;其中,所述第二模型包括编码器和解码器,所述编码器由堆叠的卷积和跳跃连接组成,所述解码器由堆叠的转置卷积和空洞卷积组成。
2.根据权利要求1所述的模型训练方法,其特征在于,所述根据第一训练样本对所述第一模型进行第一训练,得到完成第一训练的所述第一模型,包括:
将所述第一训练样本、1/2分辨率的所述第一训练样本和1/4分辨率的所述第一训练样本输入至所述第一模型中,得到所述第一模型输出的对所述第一训练样本的第一分割结果、对1/2分辨率的所述第一训练样本的第二分割结果和对1/4分辨率的所述第一训练样本第三分割结果;其中,所述第一训练样本标注有表征真实分割结果的第一标签;
根据所述第一分割结果、所述第二分割结果、所述第三分割结果、所述第一标签和预设参数构建第一损失函数,对所述第一模型进行第一训练;
对第一训练后的所述第一模型进行测试,若第一训练后的所述第一模型的测试结果满足第一预设指标,则输出完成第一训练的所述第一模型。
4.根据权利要求1至3中任一项所述的模型训练方法,其特征在于,所述根据第二训练样本和预训练的第二模型对完成第一训练的所述第一模型进行第二训练,得到完成第二训练的所述第一模型,包括:
将所述第二样本分别输入至预训练的第二模型和完成第一训练的所述第一模型中,得到所述第二模型输出的对所述第二训练样本的第四分割结果,和完成第一阶段训练的所述第一模型输出的对所述第二训练样本的第五分割结果;其中,所述第二训练样本标注有表征真实分割结果的第二标签;
根据所述第四分割结果、所述第五分割结果、所述第二标签和预设的损失权重构建第二损失函数,对完成第一训练的所述第一模型进行第二训练;
对第二训练后的所述第一模型进行测试,若第二训练后的所述第一模型的测试结果满足第二预设指标,则输出完成第二训练的所述第一模型。
5.根据权利要求4所述的模型训练方法,其特征在于,在所述根据所述第四分割结果、所述第五分割结果、所述第二标签和预设的损失权重构建第二损失函数之前,还包括:
获取完成第一训练的所述第一模型的中间层输出的第一特征图和所述第二模型的中间层输出的第二特征图;其中,所述第一特征图包括原始分辨率对应的特征图、1/2分辨率对应的特征图和1/4分辨率对应的特征图;
所述根据所述第四分割结果、所述第五分割结果、所述第二标签和预设的损失权重构建第二损失函数,包括:
根据所述第四分割结果、所述第五分割结果、所述第一特征图、所述第二特征图、所述第二标签和预设的损失权重构建第二损失函数。
7.根据权利要求1至4中任一项所述的模型训练方法,其特征在于,所述第一模块包括用于进行下采样处理的第一通道和用于进行池化处理的第二通道,所述第一通道包括两个1*1的密集卷积和一个使用深度分离的3*3卷积,所述第二通道包括池化层,所述第一模块设置有步长,所述步长为1或2;其中,当所述步长为1时,所述第一通道不进行下采样处理,且所述第二通道不进行池化处理,当所述步长为2时,所述第一通道进行下采样处理,且所述第二通道进行池化处理。
8.根据权利要求1至4中任一项所述的模型训练方法,其特征在于,所述第二模块包括用于进行上采样处理的第三通道和用于进行扩大感受野处理的第四通道,所述第四通道包括一个使用深度分离的3*3转置卷积、一个使用深度分离的3*3空洞卷积和一个1*1的密集卷积。
9.一种电子设备,其特征在于,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至8中任一所述的模型训练方法。
10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的模型训练方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111487041.4A CN114267062B (zh) | 2021-12-07 | 2021-12-07 | 人脸解析模型的训练方法、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111487041.4A CN114267062B (zh) | 2021-12-07 | 2021-12-07 | 人脸解析模型的训练方法、电子设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114267062A true CN114267062A (zh) | 2022-04-01 |
CN114267062B CN114267062B (zh) | 2022-12-16 |
Family
ID=80826489
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111487041.4A Active CN114267062B (zh) | 2021-12-07 | 2021-12-07 | 人脸解析模型的训练方法、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114267062B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116091773A (zh) * | 2023-02-02 | 2023-05-09 | 北京百度网讯科技有限公司 | 图像分割模型的训练方法、图像分割方法和装置 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109087303A (zh) * | 2018-08-15 | 2018-12-25 | 中山大学 | 基于迁移学习提升语义分割模型效果的框架 |
CN109598269A (zh) * | 2018-11-14 | 2019-04-09 | 天津大学 | 一种基于多分辨率输入与金字塔膨胀卷积的语义分割方法 |
CN110910408A (zh) * | 2019-11-28 | 2020-03-24 | 慧影医疗科技(北京)有限公司 | 图像分割方法、装置、电子设备及可读存储介质 |
CN111639524A (zh) * | 2020-04-20 | 2020-09-08 | 中山大学 | 一种自动驾驶图像语义分割优化方法 |
US20200302173A1 (en) * | 2019-03-20 | 2020-09-24 | Hitachi, Ltd. | Image processing device, image processing method, and image processing system |
CN111723812A (zh) * | 2020-06-05 | 2020-09-29 | 南强智视(厦门)科技有限公司 | 一种基于序列知识蒸馏的实时语义分割方法 |
CN111899169A (zh) * | 2020-07-02 | 2020-11-06 | 佛山市南海区广工大数控装备协同创新研究院 | 一种基于语义分割的人脸图像的分割网络的方法 |
CN111932546A (zh) * | 2020-08-20 | 2020-11-13 | 展讯通信(上海)有限公司 | 图像分割模型训练方法、图像分割方法、装置、设备及介质 |
CN113128413A (zh) * | 2021-04-22 | 2021-07-16 | 广州织点智能科技有限公司 | 一种人脸检测模型训练方法、人脸检测方法及其相关装置 |
CN113139551A (zh) * | 2021-04-23 | 2021-07-20 | 桂林电子科技大学 | 一种基于DeepLabv3+的改进语义分割方法 |
CN113205519A (zh) * | 2021-04-21 | 2021-08-03 | 西安电子科技大学 | 一种基于多支路特征融合的图像分割方法及系统 |
CN113538480A (zh) * | 2020-12-15 | 2021-10-22 | 腾讯科技(深圳)有限公司 | 图像分割处理方法、装置、计算机设备和存储介质 |
US20210334543A1 (en) * | 2020-04-28 | 2021-10-28 | Ajou University Industry-Academic Cooperation Foundation | Method for semantic segmentation based on knowledge distillation |
-
2021
- 2021-12-07 CN CN202111487041.4A patent/CN114267062B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109087303A (zh) * | 2018-08-15 | 2018-12-25 | 中山大学 | 基于迁移学习提升语义分割模型效果的框架 |
CN109598269A (zh) * | 2018-11-14 | 2019-04-09 | 天津大学 | 一种基于多分辨率输入与金字塔膨胀卷积的语义分割方法 |
US20200302173A1 (en) * | 2019-03-20 | 2020-09-24 | Hitachi, Ltd. | Image processing device, image processing method, and image processing system |
CN110910408A (zh) * | 2019-11-28 | 2020-03-24 | 慧影医疗科技(北京)有限公司 | 图像分割方法、装置、电子设备及可读存储介质 |
CN111639524A (zh) * | 2020-04-20 | 2020-09-08 | 中山大学 | 一种自动驾驶图像语义分割优化方法 |
US20210334543A1 (en) * | 2020-04-28 | 2021-10-28 | Ajou University Industry-Academic Cooperation Foundation | Method for semantic segmentation based on knowledge distillation |
CN111723812A (zh) * | 2020-06-05 | 2020-09-29 | 南强智视(厦门)科技有限公司 | 一种基于序列知识蒸馏的实时语义分割方法 |
CN111899169A (zh) * | 2020-07-02 | 2020-11-06 | 佛山市南海区广工大数控装备协同创新研究院 | 一种基于语义分割的人脸图像的分割网络的方法 |
CN111932546A (zh) * | 2020-08-20 | 2020-11-13 | 展讯通信(上海)有限公司 | 图像分割模型训练方法、图像分割方法、装置、设备及介质 |
CN113538480A (zh) * | 2020-12-15 | 2021-10-22 | 腾讯科技(深圳)有限公司 | 图像分割处理方法、装置、计算机设备和存储介质 |
CN113205519A (zh) * | 2021-04-21 | 2021-08-03 | 西安电子科技大学 | 一种基于多支路特征融合的图像分割方法及系统 |
CN113128413A (zh) * | 2021-04-22 | 2021-07-16 | 广州织点智能科技有限公司 | 一种人脸检测模型训练方法、人脸检测方法及其相关装置 |
CN113139551A (zh) * | 2021-04-23 | 2021-07-20 | 桂林电子科技大学 | 一种基于DeepLabv3+的改进语义分割方法 |
Non-Patent Citations (5)
Title |
---|
ADAM PASZKE 等: "ENET: A DEEP NEURAL NETWORK ARCHITECTURE FOR REAL-TIME SEMANTIC SEGMENTATION", 《ICLR 2017》 * |
HENGSHUANG ZHAO 等: "ICNet for Real-Time Semantic Segmentation on High-Resolution Images", 《ECCV 2018》 * |
MICHAEL TREML 等: "Speeding up Semantic Segmentation for Autonomous Driving", 《29TH CONFERENCE ON NEURAL INFORMATION PROCESSING SYSTEMS》 * |
凌志 等: "基于多层次知识蒸馏的连续图像语义分割方法", 《计算机集成制造系统》 * |
周苏 等: "基于知识蒸馏的车辆可行驶区域分割算法研究", 《汽车技术》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116091773A (zh) * | 2023-02-02 | 2023-05-09 | 北京百度网讯科技有限公司 | 图像分割模型的训练方法、图像分割方法和装置 |
CN116091773B (zh) * | 2023-02-02 | 2024-04-05 | 北京百度网讯科技有限公司 | 图像分割模型的训练方法、图像分割方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN114267062B (zh) | 2022-12-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110782462B (zh) | 一种基于双流特征融合的语义分割方法 | |
CN112926641B (zh) | 基于多模态数据的三阶段特征融合旋转机械故障诊断方法 | |
CN110490082B (zh) | 一种有效融合神经网络特征的道路场景语义分割方法 | |
EP3923233A1 (en) | Image denoising method and apparatus | |
CN111626300A (zh) | 基于上下文感知的图像语义分割模型及建模方法 | |
CN105512723A (zh) | 一种用于稀疏连接的人工神经网络计算装置和方法 | |
CN112561027A (zh) | 神经网络架构搜索方法、图像处理方法、装置和存储介质 | |
CN113743417A (zh) | 语义分割方法和语义分割装置 | |
CN113066089B (zh) | 一种基于注意力引导机制的实时图像语义分割方法 | |
US20240249508A1 (en) | Method and system for processing image, device and medium | |
CN109376763A (zh) | 基于多样本推理神经网络的样本分类方法、系统及介质 | |
CN117351354B (zh) | 基于改进MobileViT的轻量级遥感图像目标检测方法 | |
CN115017178A (zh) | 数据到文本生成模型的训练方法和装置 | |
CN112580694A (zh) | 基于联合注意力机制的小样本图像目标识别方法及系统 | |
CN115482518A (zh) | 一种面向交通场景的可扩展多任务视觉感知方法 | |
CN116543388B (zh) | 一种基于语义引导信息的条件式图像生成方法及相关装置 | |
CN111488786A (zh) | 基于cnn的监视用客体检测器的方法及装置 | |
CN116385773A (zh) | 小目标的检测方法、存储介质及电子设备 | |
CN116740344A (zh) | 一种基于知识蒸馏的轻量化遥感影像语义分割方法及装置 | |
CN114267062B (zh) | 人脸解析模型的训练方法、电子设备和存储介质 | |
CN113962262B (zh) | 一种基于连续学习的雷达信号智能分选方法 | |
CN111179212A (zh) | 集成蒸馏策略和反卷积的微小目标检测片上实现方法 | |
CN113239678A (zh) | 一种面向答案选择的多角度注意力特征匹配方法及系统 | |
CN113762304A (zh) | 图像处理方法、图像处理装置和电子设备 | |
KR20210109327A (ko) | 인공신경망의 학습 방법 및 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20220608 Address after: 230091 room 611-217, R & D center building, China (Hefei) international intelligent voice Industrial Park, 3333 Xiyou Road, high tech Zone, Hefei, Anhui Province Applicant after: Hefei lushenshi Technology Co.,Ltd. Address before: 100083 room 3032, North B, bungalow, building 2, A5 Xueyuan Road, Haidian District, Beijing Applicant before: BEIJING DILUSENSE TECHNOLOGY CO.,LTD. Applicant before: Hefei lushenshi Technology Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |