CN111353577B

CN111353577B - 基于多任务的级联组合模型的优化方法、装置及终端设备

Info

Publication number: CN111353577B
Application number: CN201811583907.XA
Authority: CN
Inventors: 蒋佳
Original assignee: TCL Technology Group Co Ltd
Current assignee: TCL Technology Group Co Ltd
Priority date: 2018-12-24
Filing date: 2018-12-24
Publication date: 2024-01-23
Anticipated expiration: 2038-12-24
Also published as: CN111353577A

Abstract

本发明适用于人工智能机器学习技术领域，提供了一种基于多任务的级联组合模型的优化方法、装置及终端设备，方法包括：将训练数据输入级联组合模型的浅层网络模型进行合并训练获取第一输出结果；将第一输出结果输入级联组合模型的深层网络模型进行并行训练获取第二输出结果；将第二输出结果输入级联组合模型的顶层网络模型进行并行训练获取第三输出结果；根据预设损失函数对第一输出结果、第二输出结果、第三输出结果进行叠加获取叠加结果；将叠加结果进行反向传播，以使浅层网络模型、深层网络模型和顶层网络模型的参数收敛，获取优化的多任务级联组合模型。本发明占用内存小，使用时间短，对任务的分类准确度高，提高了任务实现的效率。

Description

基于多任务的级联组合模型的优化方法、装置及终端设备

技术领域

本发明属于人工智能机器学习技术领域，尤其涉及一种基于多任务的级联组合模型的优化方法、装置及终端设备。

背景技术

目前人工智能技术已经被很多行业普遍接受，而基于神经网络训练的人工智能技术也深入更复杂、更多元化的项目之中。

目前，针对多任务的神经网络模型的设计方案，一般有如下2种方案：

1.针对每个任务训练一个不同的模型。

2.通过一个很大很深的网络，加入足够的卷积核以尽可能提取所有需要的特征，再通过不同的分类层实现对各种任务进行最后的分类。

其中，第一种方案导致项目中具有很多网络模型。每个网络模型都有很多参数，并且需要进行独立训练，即没有有效的利用其他网络计算出来的特征参数。整个项目实施起来占用内存大和单帧图像耗费时间长，因此限制了项目往移动端、计算力比较低端或者存储资源比较紧张的设备上移植的可能性。

第二种方案会使很多不需要的特征也参与到网络分类层，使得对某些任务具有帮助的特征对进行其他任务的分类操作时增加了大量的噪声，降低了对任务分类的准确率。

发明内容

有鉴于此，本发明实施例提供了一种基于多任务的级联组合模型的优化方法、装置及终端设备，以解决现有技术中多任务的神经网络模型占用内存大和单帧图像耗费时间长，因此限制了项目往移动端、计算力比较低端或者存储资源比较紧张的设备上移植的可能性以及降低了对任务分类的准确率的问题。

本发明实施例的第一方面提供了一种基于多任务的级联组合模型的优化方法，包括：

将训练数据输入所述级联组合模型的浅层网络模型进行合并训练，以获取第一输出结果；

将所述第一输出结果输入所述级联组合模型的深层网络模型进行并行训练，以获取第二输出结果；

将所述第二输出结果输入所述级联组合模型的顶层网络模型进行并行训练，以获取第三输出结果；

根据预设损失函数对所述第一输出结果、所述第二输出结果、所述第三输出结果进行叠加，以获取叠加结果；

根据误差反向传播算法将所述叠加结果进行反向传播，以使所述浅层网络模型、所述深层网络模型和所述顶层网络模型的参数收敛，获取优化后的多任务级联组合模型。

可选的，所述方法还包括：

获取训练数据集，识别所述训练数据集中的识别目标并添加标签；

获取预训练网络模型，并提取所述预训练网络模型的浅层网络模型；

将所述训练数据集中的数据输入所述浅层网络模型，获取浅层网络输出结果；

将所述浅层网络输出结果输入所述预训练网络模型的深层网络模型，以获取深层网络输出结果；

将所述深层网络输出结果输入所述预训练网络模型的顶层网络模型，以获取顶层网络输出结果；

通过预设损失函数对所述浅层网络输出结果、所述深层网络输出结果和所述顶层网络输出结果进行处理，获取所述浅层网络模型、所述深层网络模型和所述顶层网络模型的判决概率值；

将所述浅层网络模型的判决概率值、所述深层网络模型的判决概率值和所述顶层网络模型的判决概率值与其对应的标签相减，获取对应的所述浅层网络模型的误差值、所述深层网络模型的误差值和所述顶层网络模型的误差值；

将所述浅层网络模型的误差值、所述深层网络模型的误差值和所述顶层网络模型的误差值进行叠加，获取第一叠加误差值；

通过预设优化算法对所述第一叠加误差值进行优化，以获取梯度值；

根据所述梯度值更新所述浅层网络模型、所述深层网络模型和所述顶层网络模型的参数，使所述多任务级联组合模型收敛，获取所述优化后的多任务级联组合模型。

可选的，将所述浅层网络模型的误差值、所述深层网络模型的误差值和所述顶层网络模型的误差值进行叠加，获取第一叠加误差值之后，还包括：

获取所述预训练网络模型的底层网络模型，将所述训练数据输入所述底层网络模型，以获取底层网络输出结果；

通过均方误差算法将所述底层网络输出结果进行处理，以获取底层网络模型的误差值；

通过归一化误差函数将所述底层网络模型的误差值进行归一化，并与所述浅层网络模型的误差值、所述深层网络模型的误差值和所述顶层网络模型的误差值进行叠加，获取第二叠加误差值；

通过预设优化算法对所述第二叠加误差值进行优化，以获取所述梯度值；

可选的，所述预设优化算法包括随机梯度下降算法和Adam优化算法中的至少一种。

可选的，所述顶层网络模型为全连接层神经网络模型或全卷积层神经网络模型。

本发明实施例的第二方面提供了一种基于多任务的级联组合模型的优化装置，包括：

第一获取模块，用于将训练数据输入所述级联组合模型的浅层网络模型进行合并训练，以获取第一输出结果；

第二获取模块，用于将所述第一输出结果输入所述级联组合模型的深层网络模型进行并行训练，以获取第二输出结果；

第三获取模块，用于将所述第二输出结果输入所述级联组合模型的顶层网络模型进行并行训练，以获取第三输出结果。

第四获取模块，用于根据预设损失函数对所述第一输出结果、所述第二输出结果、所述第三输出结果进行叠加，以获取叠加结果；

第五获取模块，用于根据误差反向传播算法将所述叠加结果进行反向传播，以使所述浅层网络模型、所述深层网络模型和所述顶层网络模型的参数收敛，获取优化后的多任务级联组合模型。

本发明实施例的第三方面提供了一种终端设备，包括：存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述方法的步骤。

本发明实施例的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上述方法的步骤。

本发明实施例通过将训练数据输入级联组合模型的浅层网络模型进行合并训练，以获取第一输出结果；将第一输出结果输入级联组合模型的深层网络模型进行并行训练，以获取第二输出结果；将第二输出结果输入级联组合模型的顶层网络模型进行并行训练，以获取第三输出结果；根据预设损失函数对第一输出结果、第二输出结果、第三输出结果进行叠加，以获取叠加结果；根据误差反向传播算法将叠加结果进行反向传播，以使浅层网络模型、深层网络模型和顶层网络模型的参数收敛，获取优化后的多任务级联组合模型，减小了多任务联级组合网络模型的占用内存小、缩短了计算时间、对任务的分类准确度高，提高了任务实现的效率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例一提供的基于多任务的级联组合模型的优化方法的流程示意图；

图2是本发明实施例二提供的基于多任务的级联组合模型的优化方法的流程示意图；

图3是本发明实施例二提供的基于人脸解锁项目的级联组合模型的流程示意图；

图4是本发明实施例三提供的基于多任务的级联组合模型的优化方法的流程示意图；

图5是本发明实施例三提供的基于人脸解锁项目的级联组合模型的流程示意图；

图6是本发明实施例三提供的基于人脸解锁项目的级联组合模型的成功率测试表；

图7是本发明实施例四提供的基于多任务的级联组合模型的优化装置的结构示意图；

图8是本发明实施例五提供的终端设备的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚地描述，显然，所描述的实施例是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“包括”以及它们任何变形，意图在于覆盖不排他的包含。例如包含一系列步骤或单元的过程、方法或系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。此外，术语“第一”、“第二”和“第三”等是用于区别不同对象，而非用于描述特定顺序。

为了说明本发明所述的技术方案，下面通过具体实施例来进行说明。

实施例一

如图1所示，本实施例提供一种基于多任务的级联组合模型的优化方法，该方法可以应用于如手机、PC、平板电脑等终端设备。本实施例所提供的基于多任务的级联组合模型的优化方法，包括：

S101、将训练数据输入所述联级组合模型浅层网络模型进行合并训练，以获取第一输出结果。

在具体应用中，将训练数据输入多任务的联级组合模型的浅层网络模型并进行合并训练，以获取第一输出结果，避免了分别对多个浅层网络模型的参数进行训练的冗余操作。(浅层网络模型的输出特征往往是一些简单的、不含特定语义信息的特征。因此，若将这些特征进行可视化操作，可看到一些例如：简单的直角边缘、简单的颜色信息或者点状分布圆圈等特征，这是浅层网络网络模型都会需要的基本元素。)其中，多任务的联级组合模型为多任务联级神经网络组合模型。浅层网络模型是指多任务联级神经网络组合模型中的多个最初的任务网络模型(例如没有进行缩放或者仅进行2倍缩放的任务网络模型)。顶层网络模型是指多任务联级神经网络组合模型中的最后一层任务网络模型(即用于输出最终的任务结果的任务网络模型)。深层网络模型是指多任务联级神经网络组合模型中的介于浅层网络模型和深层网络模型之间的任务网络模型。

第一输出结果是指对所有浅层网络模型进行合并训练的输出结果。在一个实施例中，可根据实际情况对所有浅层网络模型的输出结果进行数据融合，以获取第一输出结果。

S102、将所述第一输出结果输入所述联级组合模型的深层网络模型进行并行训练，以获取第二输出结果。

在具体应用中，将浅层网络模型输出的第一输出结果输入多任务联级神经网络组合模型的深层网络模型，并进行并行训练，以获取深层网络模型输出的第二输出结果，深层网络模型会利用浅层网络模型输出的特征，进一步萃取当前网络模型所需要的深层的语义信息。深层信息会通过激励函数，选取不同的有效信息，(例如，人脸项目中选取对人脸识别网络有效的信息，活体监测项目中的噪声信息)，所以，针对不同的任务要求，对深层网络模型进行并行训练。使得深层网络模型满足了各自任务的要求。

S103、将所述第二输出结果输入所述联级组合模型的顶层网络模型进行并行训练，以获取第三输出结果。

在具体应用中，将深层网络模型输出的第二输出结果输入多任务联级神经网络组合模型的顶层网络模型并进行并行训练，以获取顶层网络模型输出的第三输出结果，在一个实施例中，顶层网络模型的类型包括但不限于全连接层神经网络模型、全卷积层神经网络模型或其他神经网络模型。例如，设定顶层网络模型为全连接层神经网络模型。

S104、根据预设损失函数对所述第一输出结果、所述第二输出结果、所述第三输出结果进行叠加，以获取叠加结果。

在具体应用中，根据预设损失函数对第一输出结果、第二输出结果、第三输出结果进行叠加，以获取叠加结果，其中，预设损失函数包括归一化指数函数(softmax函数)。需要说明的是，根据预设损失函数获取到的叠加结果为判决概率值。

S105、根据误差反向传播算法将所述叠加结果进行反向传播，以使所述浅层网络模型、所述深层网络模型和所述顶层网络模型的参数收敛，获取优化后的多任务级联组合模型。

在具体应用中，根据误差反向传播算法(BackPropagation，BP)将叠加结果进行反向传播，以使浅层网络模型、深层网络模型和顶层网络模型的参数收敛，获取优化后的多任务级联组合模型。需要说明的是，可设定周期性对参数进行收敛处理，以使参数达到最优值(等同于使得误差值达到最小值)。其中，参数的最优值包括多次对参数进行收敛处理后，参数未出现变化时的参数值。

本实施例通过将训练数据输入多任务联级神经网络组合模型中的浅层网络模型进行合并训练，以获取第一输出结果；将第一输出结果输入深层网络模型进行并行训练，以获取第二输出结果；将第二输出结果输入顶层网络模型进行并行训练，以获取第三输出结果；根据预设损失函数对第一输出结果、第二输出结果、第三输出结果进行叠加，以获取叠加结果；根据误差反向传播算法将叠加结果进行反向传播，以使浅层网络模型、深层网络模型和顶层网络模型的参数收敛，获取优化后的多任务级联组合模型，减小了多任务联级组合网络模型的占用内存小、缩短了计算时间、对任务的分类准确度高，提高了任务实现的效率。

实施例二

如图2所示，本实施例是对实施例一中的方法步骤的进一步说明。在本实施例中，所述方法，包括：

S201、获取训练数据集，识别所述训练数据集中的识别目标并添加标签。

在具体应用中，获取训练数据集，识别训练数据集中的识别目标并添加标签。例如，若任务为人脸识别：收集带有人脸框R[x,y,w,h]标注的图片数据集。并针对同一图片数据上的人脸添加标签，如，人脸分类标签，活体/假体标签，遮挡分类标签。

S202、获取预训练网络模型，并提取所述预训练网络模型的浅层网络模型。

在具体应用中，获取已通过ImageNet数据集或人脸检测数据集训练好的预训练网络模型(即经过预训练的多任务级联神经网络组合模型)，并提取与训练网络模型的浅层网络模型，保证收敛效果和收敛速度。

S203、将所述训练数据集中的数据输入所述浅层网络模型，获取浅层网络输出结果。

在具体应用中，将训练数据集中的数据作为输入特征输入浅层网络模型，以获取浅层网络输出结果。训练数据集中的数据可根据实际任务的类型进行筛选，以获取满足任务要求的训练数据集。例如，若任务为人脸识别，则选择padding的大小和kernel size和步长相配合的图片作为输入数据，以保证输入特征的大小和输出特征值向量的空间大小一致。

输出特征值向量的大小公式如下计算：

O：输出特征值向量的长/宽；

W：输入特征的长/宽；

P：padding大小；

S：步长；

若要保证O＝W，(如任务为人脸识别，则需选择padding的大小(P)和kernel size(K)和步长(S)相配合的图片作为输入数据，以保证输入特征的大小(W)和输出特征值向量的空间大小(O)一致)，故对P的值进行选择即可。得到如果输入图片大小＝N×N，输入浅层网络模型(例如浅层卷积神经网络模型)后得到的特征值向量是N×N×L，L是输出特征值向量的维度。

S204、将所述浅层网络输出结果输入所述预训练网络模型的深层网络模型，以获取深层网络输出结果。

在具体应用中，将浅层网络输出结果输入预训练网络模型的深层网络模型，以获取深层网络输出结果。

S205、将所述深层网络输出结果输入所述预训练网络模型的顶层网络模型，以获取顶层网络输出结果。

在具体应用中，将深层网络输出结果输入预训练网络模型的顶层网络模型，以获取顶层网络输出结果，通过对网络模型的层层深入逐步获取多任务的深层结果。在一个实施例中，顶层网络模型的类型包括但不限于全连接层神经网络模型、全卷积层神经网络模型或其他神经网络模型。

S206、通过预设损失函数对所述浅层网络输出结果、所述深层网络输出结果和所述顶层网络输出结果进行处理，获取所述浅层网络模型、所述深层网络模型和所述顶层网络模型的判决概率值。

在具体应用中，通过预设损失函数对浅层网络输出结果、深层网络输出结果和顶层网络输出结果进行处理，以获取浅层网络模型、深层网络模型和顶层网络模型输出的判决概率值，以根据浅层网络模型、深层网络模型和顶层网络模型输出的判决概率值获取对应的浅层网络模型的误差值、深层网络模型的误差值和顶层网络模型的误差值。其中，所述预设损失函数包括但不限于归一化指数函数(softmax函数)。

S207、将所述浅层网络模型的判决概率值、所述深层网络模型的判决概率值和所述顶层网络模型的判决概率值与其对应的标签相减，获取对应的所述浅层网络模型的误差值、所述深层网络模型的误差值和所述顶层网络模型的误差值。

在具体应用中，将浅层网络模型的判决概率值、深层网络模型的判决概率值和顶层网络模型的判决概率值与其对应的标签相减，获取对应的浅层网络模型的误差值、深层网络模型的误差值和顶层网络模型的误差值。

S208、将所述浅层网络模型的误差值、所述深层网络模型的误差值和所述顶层网络模型的误差值进行叠加，获取第一叠加误差值。

在具体应用中，将浅层网络模型的误差值、深层网络模型的误差值和顶层网络模型的误差值进行加权叠加，以获取第一叠加误差值，其中，加权叠加算法中的加权值可根据实际情况进行具体设定，例如，根据浅层网络模型、深层网络模型和顶层网络模型的任务重要度进行具体设定，提高任务重要度大的网络模型在加权叠加算法中的加权值。

S209、通过预设优化算法对所述第一叠加误差值进行优化，以获取梯度值。

在具体应用中，通过预设优化算法对第一叠加误差值进行优化，以获取梯度值。根据误差值获取梯度值以后续实现根据梯度值进行浅层网络模型、深层网络模型和顶层网络模型的参数的更新操作。在一个实施例中，预设优化算法包括随机梯度下降算法和Adam优化算法中的至少一种。

S210、根据所述梯度值更新所述浅层网络模型、所述深层网络模型和所述顶层网络模型的参数，使所述多任务级联组合模型收敛，获取所述优化后的多任务级联组合模型。

在具体应用中，根据梯度值更新浅层网络模型、深层网络模型和顶层网络模型的参数，使多任务级联组合模型收敛，获取优化后的多任务级联组合模型。

以人脸解锁项目为例：

人脸解锁是一个基于人脸图片，用神经网络模型进行人脸区域检测(人脸检测)、人脸遮挡检测、人脸识别、活体检测的复杂任务的项目。其中，人脸检测是指提取图片中的人脸区域的任务；人脸识别是指提取人脸图片的有效的特征，并对该特征与数据库里已有人脸特征进行匹配，从而判定是否为同一人脸的任务；活体检测是指通过网络判定输入的人脸图片为真人还是照片或者视频的任务。由于整个人脸解锁项目基于上述的任务，故需要针对每一个任务训练一个具体的任务网络模型。

可以根据实际情况判断出，人脸检测和人脸遮挡检测实际上均为针对人的五官的具体形状进行检测的任务。人脸识别是将五官形状大小以及五官的排列组合进行特征值提取的任务。人脸的活体检测是基于人脸区域的图像质量细节的特征分析和分类的任务。

因此，根据对上述任务的分析将整个多任务联级组合网络模型设计为一个级联并行的神经网络模型，如图3所示，将人脸框识别模型作为最顶层的网络模型，其输出结果为预测人脸框可以分别作为后面3个深层网络模型的人脸图片输入数据，能够将人脸框的准确预测，和其他浅层网络模型和深层网络模型的输出结果的误差值有机结合，在通过误差反向传播算法进行误差反向传递时，能够同时修正人脸框的坐标和各个级联模型的参数，达到整体多任务级联组合网络模型误差值最小的训练目的。需要说明的是，在人脸解锁项目中，有一个人脸检测网络模型，其输出结果不是概率值，而是人脸坐标值，所以对获取到的人脸的真实的坐标值做MSE操作后获得的误差要进行归一化之后，再和浅层、深层、顶层网络模型的输出误差值进行叠加，防止上述网络模型输出值不平衡的问题出现。

本实施例通过已训练好的预训练网络模型保证了基本的收敛效果和收敛速度，并通过对浅层网络模型、深层网络模型及顶层网络模型进行层层训练进一步提高了多任务联级网络模型的收敛效率。

实施例三

如图4所示，本实施例是对实施例一中的方法步骤的进一步说明。在本实施例中，所述步骤S208之后，还包括：

S301、获取所述预训练网络模型的底层网络模型，将所述训练数据输入所述底层网络模型，以获取底层网络输出结果。

在具体应用中，获取预训练网络模型的底层网络模型，将训练数据集的训练数据输入底层网络模型，以获取底层网络输出结果。其中，底层网络模型是指多任务级联神经网络组合模型中多个最底层的具有相似语义信息的核函数的任务网络模型。

S302、通过均方误差算法将所述底层网络输出结果进行处理，以获取底层网络模型的误差值。

在具体应用中，通过均方误差算法(Mean Square Error，MSE)将底层网络输出结果进行处理，以获取底层网络模型的误差值。

S303、通过归一化误差函数将所述底层网络模型的误差值进行归一化，并与所述浅层网络模型的误差值、所述深层网络模型的误差值和所述顶层网络模型的误差值进行叠加，获取第二叠加误差值。

在具体应用中，通过归一化误差函数将底层网络模型的误差值进行归一化，并与浅层网络模型的误差值、深层网络模型的误差值和顶层网络模型的误差值进行叠加，获取第二叠加误差值。例如，归一化误差函数的公式为：

y⁽ⁱ⁾表示代表预测坐标值；表示真实坐标值(坐标标签)；n表示坐标个数。

S304、通过预设优化算法对所述第二叠加误差值进行优化，以获取所述梯度值。

在具体应用中，通过预设优化算法对第二叠加误差值进行优化，以获取梯度值，其中，预设优化算法包括但不限于随机梯度下降算法、Adam中的至少一种。

S305、根据所述梯度值更新所述浅层网络模型、所述深层网络模型和所述顶层网络模型的参数，使所述多任务级联组合模型收敛，获取所述优化后的多任务级联组合模型。

如图5所示，以人脸解锁项目为例，人脸区域底层模型是指将人脸最底层的特征提取出来的任务，将人脸区域底层模型作为底层网络模型，可防止后面的人脸识别模型，活体检测模型，遮挡检测模型对人脸底层的特征重复提取，而造成不必要的计算量的浪费和额外的特征存储空间的浪费。获取每个网络模型输出的概率值，将概率值进行叠加，并根据实际情况设定的人脸解锁的阈值，判定叠加后的概率值是否满足人脸解锁阈值，以判定是否解锁成功。

经过测试，基于本方案，在性能提升的情况下，多任务的级联组合模型的大小可以压缩到原来模型总体大小的30％。性能提升的主要原因在于整体考虑项目中每个任务之间的关联，去掉冗余部分的特征重复计算，归纳到底层网络模型中，将具体任务和具体特征提炼出来并一一配对，去掉了不需要的特征对改任务的干扰。使得活体识别项目的准确率提升了3-5％，人脸识别项目的准确率提升1-2％，整体人脸解锁项目的准确率和误识别率的性能都得到了很大的提升。

如图6，提供了基于人脸解锁项目的级联组合模型的成功率测试表，其中，人脸识别训练数据集为400万张人脸照片。

本实施例通过获取底层网络模型实现对底层特征的训练和判断，避免浅层网络模型、深层网络模型和顶层网络模型重复进行特征提取操作，而导致的不必要的计算量浪费和额外的特征存储空间，减小了多任务联级网络模型的计算量、占用内存及计算时间。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

实施例四

如图6所示，本实施例提供一种基于多任务的级联组合模型的优化装置100，用于执行实施例一中的方法步骤。本实施例提供的基于多任务的级联组合模型的优化装置100，包括：

第一获取模块101，用于将训练数据输入所述级联组合模型的浅层网络模型进行合并训练，以获取第一输出结果；

第二获取模块102，用于将所述第一输出结果输入所述级联组合模型的深层网络模型进行并行训练，以获取第二输出结果；

第三获取模块103，用于将所述第二输出结果输入所述级联组合模型的顶层网络模型进行并行训练，以获取第三输出结果。

第四获取模块104，用于根据预设损失函数对所述第一输出结果、所述第二输出结果、所述第三输出结果进行叠加，以获取叠加结果；

第五获取模块105，用于根据误差反向传播算法将所述叠加结果进行反向传播，以使所述浅层网络模型、所述深层网络模型和所述顶层网络模型的参数收敛，获取优化后的多任务级联组合模型

在一个实施例中，所述装置100，还包括：

第六获取模块，用于获取训练数据集，识别所述训练数据集中的识别目标并添加标签；

提取模块，用于获取预训练网络模型，并提取所述预训练网络模型的浅层网络模型；

第一输入模块，用于将所述训练数据集中的数据输入所述浅层网络模型，获取浅层网络输出结果；

第二输入模块，用于将所述浅层网络输出结果输入所述预训练网络模型的深层网络模型，以获取深层网络输出结果；

第三输入模块，用于将所述深层网络输出结果输入所述预训练网络模型的顶层网络模型，以获取顶层网络输出结果；

第一叠加模块，用于通过预设损失函数对所述浅层网络输出结果、所述深层网络输出结果和所述顶层网络输出结果进行处理，获取所述浅层网络模型、所述深层网络模型和所述顶层网络模型的判决概率值；

计算模块，用于将所述浅层网络模型的判决概率值、所述深层网络模型的判决概率值和所述顶层网络模型的判决概率值与其对应的标签相减，获取对应的所述浅层网络模型的误差值、所述深层网络模型的误差值和所述顶层网络模型的误差值；

第二叠加模块，用于将所述浅层网络模型的误差值、所述深层网络模型的误差值和所述顶层网络模型的误差值进行叠加，获取第一叠加误差值；

第一优化模块，用于通过预设优化算法对所述第一叠加误差值进行优化，以获取梯度值；

更新模块，用于根据所述梯度值更新所述浅层网络模型、所述深层网络模型和所述顶层网络模型的参数，使所述多任务级联组合模型收敛，获取所述优化后的多任务级联组合模型。

在一个实施例中，所述装置100，还包括：

第四输入模块，用于获取所述预训练网络模型的底层网络模型，将所述训练数据输入所述底层网络模型，以获取底层网络输出结果；

第七获取模块，用于通过均方误差算法将所述底层网络输出结果进行处理，以获取底层网络模型的误差值；

归一化模块，用于通过归一化误差函数将所述底层网络模型的误差值进行归一化，并与所述浅层网络模型的误差值、所述深层网络模型的误差值和所述顶层网络模型的误差值进行叠加，获取第二叠加误差值；

第二优化模块，用于通过预设优化算法对所述第二叠加误差值进行优化，以获取所述梯度值；

第八获取模块，用于根据所述梯度值更新所述浅层网络模型、所述深层网络模型和所述顶层网络模型的参数，使所述多任务级联组合模型收敛，获取所述优化后的多任务级联组合模型。

在一个实施例中，所述预设优化算法包括随机梯度下降算法和Adam优化算法中的至少一种。

在一个实施例中，所述顶层网络模型为全连接层神经网络模型或全卷积层神经网络模型。

本实施例通过根据核函数获取浅层网络模型、深层网络模型及顶层网络模型；将训练数据输入浅层网络模型进行合并训练，以获取第一输出结果；将第一输出结果输入深层网络模型进行并行训练，以获取第二输出结果；将第二输出结果输入顶层网络模型进行并行训练，以获取第三输出结果；根据预设损失函数对第一输出结果、第二输出结果、第三输出结果进行叠加，以获取叠加结果；根据误差反向传播算法将叠加结果进行反向传播，以使浅层网络模型、深层网络模型和顶层网络模型的参数收敛，获取优化后的多任务级联组合模型，减小了多任务联级组合网络模型的占用内存小、缩短了计算时间、对任务的分类准确度高，提高了任务实现的效率。

实施例五

图8是本实施例五提供的终端设备的示意图。如图8所示，该实施例的终端设备8包括：处理器80、存储器81以及存储在所述存储器81中并可在所述处理器80上运行的计算机程序82，例如基于多任务的级联组合模型的优化程序。所述处理器80执行所述计算机程序82时实现上述各个基于多任务的级联组合模型的优化方法实施例中的步骤，例如图1所示的步骤S101至S105。或者，所述处理器80执行所述计算机程序82时实现上述各装置实施例中各模块/单元的功能，例如图7所示模块101至105的功能。

示例性的，所述计算机程序82可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器81中，并由所述处理器80执行，以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序82在所述终端设备8中的执行过程。例如，所述计算机程序82可以被分割成第一获取模块、第二获取模块、第三获取模块、第四获取模块和第五获取模块，各模块具体功能如下：

所述终端设备8可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括，但不仅限于，处理器80、存储器81。本领域技术人员可以理解，图8仅仅是终端设备8的示例，并不构成对终端设备8的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器80可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器81可以是所述终端设备8的内部存储单元，例如终端设备8的硬盘或内存。所述存储器81也可以是所述终端设备8的外部存储设备，例如所述终端设备8上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字卡(Secure Digital，SD)，闪存卡(Flash Card)等。进一步地，所述存储器81还可以既包括所述终端设备8的内部存储单元也包括外部存储设备。所述存储器81用于存储所述计算机程序以及所述终端设备所需的其他程序和数据。所述存储器81还可以用于暂时地存储已经输出或者将要输出的数据。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的实施例中，应该理解到，所揭露的装置/终端设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/终端设备实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种基于多任务的级联组合模型的优化方法，其特征在于，包括：

根据误差反向传播算法将所述叠加结果进行反向传播，以使所述浅层网络模型、所述深层网络模型和所述顶层网络模型的参数收敛，获取优化后的多任务级联组合模型；

所述优化方法应用于人脸识别，具体为：

获取人脸图像特征，基于所述多任务级联组合模型生成是否为同一人脸的结果；

所述方法还包括：

2.如权利要求1所述的基于多任务的级联组合模型的优化方法，其特征在于，将所述浅层网络模型的误差值、所述深层网络模型的误差值和所述顶层网络模型的误差值进行叠加，获取第一叠加误差值之后，还包括：

3.如权利要求1所述的基于多任务的级联组合模型的优化方法，其特征在于，所述预设优化算法包括随机梯度下降算法和Adam优化算法中的至少一种。

4.如权利要求1所述的基于多任务的级联组合模型的优化方法，其特征在于，所述顶层网络模型为全连接层神经网络模型或全卷积层神经网络模型。

5.一种基于多任务的级联组合模型的优化装置，其特征在于，包括：

第三获取模块，用于将所述第二输出结果输入所述级联组合模型的顶层网络模型进行并行训练，以获取第三输出结果；

第五获取模块，用于根据误差反向传播算法将所述叠加结果进行反向传播，以使所述浅层网络模型、所述深层网络模型和所述顶层网络模型的参数收敛，获取优化后的多任务级联组合模型；

所述优化装置应用于人脸识别，具体为：

还包括：

6.如权利要求5所述的基于多任务的级联组合模型的优化装置，其特征在于，还包括：

7.一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至4任一项所述方法的步骤。

8.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至4任一项所述方法的步骤。