CN110647917A

CN110647917A - 一种模型复用方法与系统

Info

Publication number: CN110647917A
Application number: CN201910785418.0A
Authority: CN
Inventors: 段凌宇; 白燕; 楼燚航; 陈子谦
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2019-08-23
Filing date: 2019-08-23
Publication date: 2020-01-03
Anticipated expiration: 2039-08-23
Also published as: CN110647917B

Abstract

本申请公开了一种模型复用方法与系统，包括：将数据集中的有标签数据输入至待训练模型，基于目标损失函数，得到目标损失；将通过数据集中的多个数据得到的多个数据组合输入至待训练模型，基于模型复用损失函数，得到复用损失；根据目标损失和复用损失，更新待训练模型；重复上述步骤，直到重复次数达到阈值次数，得到训练好的待训练模型。通过将数据集中的有标签数据输入至待训练模型，得到目标损失，将通过数据集中的多个数据得到的多个数据组合输入至待训练模型，得到复用损失，使用少量的有标签数据得到的目标损失和包括大量无标签数据的所有数据得到的复用损失共同更新待训练模型，能够有效利用大量无标签数据。

Description

一种模型复用方法与系统

技术领域

本申涉及人工智能人技术领域，尤其涉及一种模型复用方法与系统。

背景技术

在大数据时代，人们已经达成共识，为了获得一个高性能模型，通常需要大量的来自不同数据源的标记数据。虽然标签信息对于一系列人工智能应用程序中训练模型至关重要，但是获取大量的标签数据是十分消耗资源的。如何高效的复用已训练好的深度神经网络模型成为了需要解决的难题。

现有的模型重用方法无法有效利用大量的无标签数据。

综上所述，需要提供一种能够有效利用大量无标签数据的模型复用方法与系统。

发明内容

为解决以上问题，本申请提出了一种模型复用方法与系统。

一方面，本申请提出一种模型复用方法，包括：

将数据集中的有标签数据输入至待训练模型，基于目标损失函数，得到目标损失；

将通过数据集中的多个数据得到的多个数据组合输入至待训练模型，基于模型复用损失函数，得到复用损失；

根据目标损失和复用损失，更新待训练模型；

重复上述步骤，直到重复次数达到阈值次数，得到训练好的待训练模型。

优选地，所述数据组合包括单个数据、多个最终特有特征、多个最终共有特征，其中，所述多个最终特有特征和多个最终共有特征的数量与复用模型的数量相同，所述多个最终特有特征中的每个最终特有特征、所述多个最终共有特征中的每个最终共有特征是通过下述方法得到：

将从数据集中提取的单位数据输入复用模型得到复用特征，

将复用特征经过映射更新计算更新共有特征映射和特有特征映射；

比较是否网络收敛，如果不收敛，重复上述步骤，如果收敛，得到与所述单位数据对应的一个最终共有特征和一个最终特有特征。

优选地，所述将复用特征经过映射更新计算更新共有特征映射和特有特征映射，包括：

将复用特征输入共有特征映射和特有特征映射，得到共有特征和特有特征；

基于对抗学习方法，根据所述共有特征来更新所述共有特征映射；

基于自动编码器的方法，根据所述共有特征和所述特有特征来更新所述特有特征映射。

优选地，所述比较是否网络收敛包括：

当所述特有特征和所述共有特征重构出所述复用特征，所述特有特征映射为最终特有特征映射，当前的特有特征为最终特有特征；

当根据所述复用特征得到的共有特征无法被判别器区分为哪个复用模型生成时，所述共有特征映射为最终共有特征映射，且该共有特征为最终共有特征。

优选地，在所述如果收敛，得到与所述单位数据对应的一个最终共有特征和一个最终特有特征之后，还包括：

将数据集中所有的单个数据输入至复用模型，提取所有单个数据的复用特征；

使用最终共有特征映射提取每个复用特征的最终共有特征；

使用最终特有特征映射提取每个复用特征的最终特有特征。

优选地，所述基于对抗学习方法，根据所述共有特征来更新所述共有特征映射，包括：

将得到的共有特征输入至判别器，基于优化公式，得到对抗损失；

使用对抗损失，更新共有特征映射。

优选地，所述基于自动编码器的方法，根据所述共有特征和所述特有特征来更新所述特有特征映射，包括：

基于自动编码器的方法，将与复用特征对应的特有特征和共有特征输入至解码函数，获得与复用特征对应的重构特征；

使用复用特征和与复用特征对应的重构特征，计算与复用特征对应的重构误差，更新特有特征映射。

优选地，在所述将通过数据集中的多个数据得到的多个数据组合输入至待训练模型之前，还包括：

对多个数据组合中的所有最终共有特征和所有最终特有特征进行线性变换或非线性变换。

优选地，在所述基于模型复用损失函数，得到复用损失之前，还包括：

对经过待训练模型提取的数据组合中的单个数据的特征进行线性变换或非线性变换。

第二方面，本申请提出一种模型复用系统，包括：

对抗学习模块，用于通过数据集中的多个数据得到的多个数据组合；

损失计算模块，用于将数据集中的有标签数据输入至待训练模型，基于目标损失函数，得到目标损失；将多个数据组合输入至待训练模型，基于模型复用损失函数，得到复用损失；根据目标损失和复用损失，更新待训练模型；得到训练好的待训练模型；

更新训练模块，用于重复执行损失计算模块，直到重复次数达到阈值次数。

本申请的优点在于：通过将数据集中的有标签数据输入至待训练模型，得到目标损失，将通过数据集中的多个数据得到的多个数据组合输入至待训练模型，得到复用损失，根据目标损失和复用损失，更新待训练模型，使用少量的有标签数据得到的目标损失和包括大量无标签数据的所有数据得到的复用损失，共同更新待训练模型，能够有效利用大量无标签数据。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选事实方案的目的，而并不认为是对本申请的限制。而且在整个附图中，用同样的参考符号表示相同的部件。在附图中：

图1是本申请提供的一种模型复用方法的步骤示意图；

图2是本申请提供的一种模型复用方法的智能体的特有特征映射和共有特征映射的训练更新示意图；

图3是本申请提供的一种模型复用方法的模型复用损失约束待训练模型提取到的特征的示意图；

图4是本申请提供的一种模型复用系统的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施方式。虽然附图中显示了本公开的示例性实施方式，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

根据本申请的实施方式，提出一种模型复用方法，如图1所示，包括：

S101，将数据集中的有标签数据输入至待训练模型，基于目标损失函数，得到目标损失；

S102，将通过数据集中的多个数据得到的多个数据组合输入至待训练模型，基于模型复用损失函数，得到复用损失；

S103，根据目标损失和复用损失，更新待训练模型；

S104，重复上述步骤，直到重复次数达到阈值次数，得到训练好的待训练模型。

数据组合包括单个数据、多个最终特有特征和多个最终共有特征，其中，多个最终特有特征和多个最终共有特征的数量与复用模型的数量相同，多个最终特有特征中的每个最终特有特征、多个最终共有特征中的每个最终共有特征是通过下述方法得到：

将从数据集中提取的单位数据输入复用模型得到复用特征，

将复用特征经过映射更新计算更新共有特征映射和特有特征映射，包括：

比较是否网络收敛包括：

在如果收敛，得到与所述单位数据对应的一个最终共有特征和一个最终特有特征之后，还包括：

使用最终共有特征映射提取每个复用特征的最终共有特征；

使用最终特有特征映射提取每个复用特征的最终特有特征。

基于对抗学习方法，根据所述共有特征来更新所述共有特征映射，包括：

使用对抗损失，更新共有特征映射。

基于自动编码器的方法，根据所述共有特征和所述特有特征来更新所述特有特征映射，包括：

在将通过数据集中的多个数据得到的多个数据组合输入至待训练模型之前，还包括：

在基于模型复用损失函数，得到复用损失之前，还包括：

数据集中包括有标签数据和无标签数据。

对于数据集中有标签数据和无标签数据的比例没有要求。

优选地，有标签数据大于等于10％。当标签数据过少(如低于10％)，会影响待训练模型性能。

根据目标损失和复用损失，更新待训练模型的阈值次数可以根据需要设定。

对于多个复用模型(现有模型)，即已训练好的深度神经网络模型，其训练数据不要求和目标任务数据(需要输入至待训练模型的数据集中的数据)拍摄条件完全相同或相似，仅要求数据目标类别相似，如：均为行人数据集或均为车辆数据集；复用模型的目标任务不要求和待训练模型的目标任务相同，仅要求任务相关，如：检索、分类；对于复用模型的网络结构不做要求，可以和待训练模型(目标模型)网络结构相同或不同。

对于各复用模型，其所有网络层都可以进行特征提取，不要求指定的层数以及提取的特征数量。可以进行一个卷积层的特征提取，也可以提取多层特征。

网络层包括：卷积层、池化层和全连接层。

对于各复用模型，不对提取特征的网络层做要求，仅要求特征处理方法一致。

线性变换包括矩阵乘法等变换。

非线性变换包括池化操作和主元分析(Principal Component Analysis，PCA)白化等变换。

对使用的复用模型数量没有限制，大于等于两个即可。

对于数据集中的有标签数据，根据待训练模型的目标任务进行网络训练，其不对目标任务进行限制，也不对标签数据类型及目标损失函数进行限制。

从复用模型中提取出的共有特征和特有特征需要与待训练模型提取的特征的维度一致。

根据网络收敛，停止共有特征映射的更新和特有特征映射的更新，得到最终共有特征映射和最终特有特征映射。由于特征映射在训练中是有损失的，即使是已经训练好的共有特征映射或特有特征映射，即共有特征映射或特有特征映射的损失很低，接近于0时，也可以继续训练。只是因为损失小，共有特征映射或特有特征映射的更新幅度较小。即，对于最终特有特征映射，在一种实施方式中，当特有特征和共有特征重构出复用特征时，得到训练好的特有特征映射(作为最终特有特征映射)，在另一种实施方式中，当特有特征和共有特征重构出复用特征时，得到训练好的特有特征映射，作为最终特有特征映射之后，该最终特有特征映射还可以继续更新，直到其他特有特征映射和/或共有特征映射都更新完成，得到所有的最终特有特征映射和最终共有特征映射。对于最终共有特征映射，在一种实施方式中，当根据复用特征得到的共有特征无法被判别器区分为哪个复用模型生成时，得到训练好的共有特征映射(作为最终共有特征映射)，在另一种实施方式中，当根据复用特征得到的共有特征无法被判别器区分为哪个复用模型生成时，得到训练好的共有特征映射，作为最终共有特征映射之后，该最终共有特征映射还可以继续更新，直到其他特有特征映射和/或共有特征映射都更新完成，得到所有的最终特有特征映射和最终共有特征映射。

以使用3个复用模型为例，每个复用模型分别对应一个共有特征映射和一个特有特征映射。

优选地，共有特征映射和特有特征映射的更新过程可以为：只有当判别器无法区分3个共有特征映射生成的各共有特征为哪个复用模型的共有特征映射生成，并且，3个复用模型的特有特征映射获得的3个特有特征和与其相对应的共有特征都能够重构与其相对应的复用特征时，与各复用模型对应的各特有特征映射和共有特征映射停止更新，得到3个最终共有特征映射和3个最终特有特征映射。即，单个数据分别输入复用模型A、复用模型B和复用模型C，得到复用特征A、复用特征B和复用特征C。使用与各复用模型对应的共有特征映射和特有特征映射(共有特征映射A、特有特征映射A、共有特征映射B、特有特征映射B、共有特征映射C和特有特征映射C)，分别提取对应的复用特征，得到共有特征A、特有特征A、共有特征B、特有特征B、共有特征C和特有特征C，若此时，判别器无法区分共有特征A、共有特征B和共有特征C中各共有特征是根据哪个复用特征提取的，并且，使用共有特征A和特有特征A，能够重构出复用特征A，使用共有特征B和特有特征B，能够重构出复用特征B，使用共有特征C和特有特征C，能够重构出复用特征C时，共有特征映射A、特有特征映射A、共有特征映射B、特有特征映射B、共有特征映射C和特有特征映射C停止更新，得到最终共有特征映射A、最终共有特征映射B、最终共有特征映射C、最终特有特征映射A、最终特有特征映射B和最终特有特征映射C。同时得到当前单个数据的最终共有特征A、最终共有特征B、最终共有特征C、最终特有特征A、最终特有特征B和最终特有特征C。

对于特有特征映射和共有特征映射的更新，还可以根据设定，经过在输入多个数据，得到多个重构误差和多个对抗损失后，对重构误差求平均值，对对抗损失求平均值，使用求完平均值的对抗损失和重构误差更新特有特征映射和共有特征映射。

下面，对本申请实施例进行进一步说明。如图2所示，以使用2个复用模型为例。

S1，从数据集中取一个数据，分别输入至第一复用模型和第二复用模型，得到从第一复用模型中提取出的第一复用特征z^m和从第二复用模型中提取出的第二复用特征z^m′。使用第一共有特征映射

和第一特有特征映射

从z^m中获取第一共有特征

和第一特有特征使用第二共有特征映射

和第二特有特征映射

从z^m′中获取第二共有特征

和第二特有特征

S2，使用对抗学习方法，根据共有特征更新共有特征映射中的参数。即，将得到的第一特有特征

和第二共有特征

输入至判别器D，使用判别器D判断这俩各共有特征是从哪个复用特征中得到的。基于优化公式，得到各共有特征的对抗损失；使用各共有特征的对抗损失，更新对应的共有特征映射中的映射参数。

S3，基于自动编码器的方法，使用共有特征和特有特征更新特有特征映射中的参数。即，基于自动编码器的方法，将第一共有特征

和第一特有特征

输入至解码函数，获得第一重构特征

使用第一复用特征zm和第一重构特征

计算重构误差，更新第一特有特征映射中的映射参数。将第二共有特征和第二特有特征

输入至解码函数，获得第二重构特征

使用第二复用特征z^m′和第二重构特征

计算重构误差，更新第二特有特征映射中的映射参数。

S4，重复S1至S3，直至网络收敛，得到第一最终共有特征映射、第二最终共有特征映射、第一最终特有特征映射和第二最终特有特征映射，当前数据的第一最终共有特征、第二最终共有特征、第一最终特有特征、和第二最终特有特征。

将数据集中的数据输入至各复用模型，得到各数据的第一复用特征和第二复用特征。使用第一最终共有特征映射从各第一复用特征中提取各第一最终共有特征，得到数据集中每个数据的第一最终共有特征。使用第二最终共有特征映射从各第二复用特征中提取各第二最终共有特征，得到数据集中每个数据的第二最终共有特征。使用第一最终特有特征映射，从各数据的第一复用特征中，提取第一最终特有特征，得到数据集中每个数据的第一最终特有特征。使用第二最终特有特征映射，从各数据的第二复用特征中，提取第二最终特有特征，得到数据集中每个数据的第二最终特有特征。获得多个数据组合，每个数据组合都包括单个数据，这个数据对应的第一最终共有特征、第二最终共有特征、第一最终特有特征和第二最终特有特征。

还可以对各数据的第一最终共有特征、第二最终共有特征、第一最终特有特征和第二最终特有特征进行线性变换或非线性变换。

S5，输入有标签数据至待训练模型，基于目标损失函数，得到目标损失。

S6，将数据组合输入至待训练模型，提取单个数据的特征，基于模型复用损失函数，得到复用损失。在使用单个数据的特征，计算复用损失之前，还可以先对单个数据的特征进行线性变换或非线性变换。

S7，根据目标损失和复用损失，更新待训练模型。

S8，重复S5至S7，直到达到设定好的阈值(迭代)次数，得到训练好的待训练模型，即目标模型。

通过使用最终共有特征和最终特有特征，进行待训练模型的复用损失约束，改进代训练模型。复用损失约束是指对两种特征的一致性或相似性约束，可以通过计算两种特征的距离实现。对于距离的计算方法不做限制，包括：欧式距离和L1距离等。

对于目标损失函数和模型复用损失函数进行协同训练，其协同训练方法不做限制，例如：可以迭代训练两个损失，也可以同时约束这两个损失(目标损失和复用损失)。

如图2所示，为了挖掘多个现有复用模型的共性，进行共有特征的学习。对于第一复用模型，第一共有特征映射

通过学习，更新第一共有特征映射中的参数，得到一个共性的或者模型无关的表示

针对共有特征的训练，采用对抗学习方法。当给定一个特征判别器D会学习识别哪个复用模型生成了

而

试图生成不能被判别器D识别的共有特征。

为了挖掘多个现有复用模型的特性，进行每个复用模型特有的特征学习。对于第一复用模型，第一特有特征映射

通过学习，更新第一特有特征映射中的参数，得到一个特有的或者模型相关的表示

为了学习模型的特有特征，使用基于自动编码器的方法来最小化每个复用模型的特有特征的重建误差。使用解码函数

来获得重构特征

优化公式如下：

其中，

为对抗损失，

是判别器D预测

是第一复用模型的共有特征的概率，s.t.表示受限于。γ_D可以根据需要设定。

m为复用模型编号，m＝1为第一复用模型。

其中，为获得重构特征

为计算重构误差。

使用对抗学习的策略可以较好地利用现有的复用模型特征的一致性和互补性。

在待训练模型的学习中，对于有标签数据，用目标损失函数L(.)训练了网络。对于所有有标签数据和无标签数据，利用所学的模型共性特征和特有特征，使用模型复用损失函数R(.)来改进目标模型。在某个隐藏层上重用源模型特征，其公式如下：

其中

和是数据集中有限的标注数据和大量的未标注数据，x_n是输入数据，即数据集中的数据，y_n是标签。N_l是有标签数据的数量，N_u是无标签数据的数量。f_T(θ_T；x_n)，y_n表示输入数据经过待训练模型，获得特征。θ_T表示目标模型中的参数，γ用于平衡任务目标和正则化项，可以根据需要设定。M表示复用模型的编号，z_n表示待训练模型的隐藏层提取出来的特征。

模型复用损失函数R(.)可以表示为：

其中为对m个复用模型得到的m个共有特征求平均值，即对数据组合中单个数据的多个共有特征求平均值。是第m号复用模型提取出来的特有特征。g(.)是对求平均后的最终共有特征和多个最终特有特征进行线性变换或非线性变换。通过将单个数据对应的所有最终共有特征的平均值与所有最终特有特征相融合，以改进待训练模型隐藏层的表示。

如图3所示，以使用2个复用模型为例，即得到两个最终特有特征和两个最终共有特征。其中z_c是两个最终共有特征的平均值z_nc，

和分别是第一最终特有特征和第二最终特有特征，对应模型复用损失函数R(.)中的和

可以对z_nc、

和

进行线性变换或非线性变换，得到z_Src，

z_Tar对应模型复用损失函数R(.)中的z_n。最小化z_Src和z_Tar的误差，使得它们尽可能相似。

本申请的实施方式，在行人再识别任务中，可以提升7％平均准确率(meanAverage Precision，mAP)的行人再识别性能。

由于在行人再识别任务中，存在部分有标签数据和大量无标签数据。此外，行人再识别任务受到拍摄条件的影响，不同场景下训练的模型无法通用。在这种性能受限的情况下，采用了复用多个现有模型提升性能的方法，并对其加以验证。

实验设置如下：使用softmax损失训练行人再识别模型；在Duke数据集中分别采用50％有标签数据和50％无标签数据；在其它行人数据集，如Market1501、MSMT17以及CUHK03数据集下获得现有训练好的模型；以Resnet50为目标模型的网络框架。

结合本申请的实施方式，当复用两个现有模型时，使用50％的无标签数据，使用如Market1501和MSMT17训练的模型，或Market1501和CUHK03训练的模型，可以提升7％mAP的行人再识别性能。

以在其它行人图片数据集下获得现有训练好的两个模型为复用模型，使用50％的有标签数据为例，对本申请的实施方式进行进一步说明。

将数据集中的数据(行人图片)依次分别输入至两个复用模型(复用模型A和复用模型B)，获取各行人图片的两个复用特征(复用特征A和复用特征B)，使用特有特征映射A和共有特征映射A提取复用特征A的特有特征A和共有特征A。使用特有特征映射B和共有特征映射B提取复用特征B的特有特征B和共有特征B。

基于对抗学习方法，根据共有特征A来更新所述共有特征映射A。基于对抗学习方法，根据共有特征B来更新所述共有特征映射B。

基于自动编码器的方法，根据共有特征A和特有特征A来更新特有特征映射A。基于自动编码器的方法，根据共有特征B和特有特征B来更新特有特征映射B。

当网络收敛，获得最终共有特征映射A、最终共有特征映射B、最终特有特征映射A和最终特有特征映射B。

获取数据集中的每个行人图片的数据组合。

将数据集中，50％的有标签的行人图片依次输入至待训练模型，基于目标损失函数，得到目标损失。将多个数据组合依次输入至待训练模型，基于模型复用损失函数，得到复用损失。根据目标损失和复用损失，更新待训练模型。重复上述步骤，直到重复次数达到阈值次数，得到训练好的待训练模型，即目标模型。训练好的目标模型可以用于行人识别。

根据本申请的实施方式，还提出一种模型复用系统，如图4所示，包括：

对抗学习模块101，用于通过数据集中的多个数据得到的多个数据组合；

损失计算模块102，用于将数据集中的有标签数据输入至待训练模型，基于目标损失函数，得到目标损失；将多个数据组合输入至待训练模型，基于模型复用损失函数，得到复用损失；根据目标损失和复用损失，更新待训练模型；得到训练好的待训练模型；

更新训练模块103，用于重复执行损失计算模块，直到重复次数达到阈值次数。

本申请实施例的方法中，通过将数据集中的有标签数据输入至待训练模型，得到目标损失，将通过数据集中的多个数据得到的多个数据组合输入至待训练模型，得到复用损失，根据目标损失和复用损失，更新待训练模型，使用少量的有标签数据得到的目标损失和包括大量无标签数据的所有数据得到的复用损失，共同更新待训练模型，能够有效利用大量无标签数据。通过对抗学习和自动编码器的方法，提取数据的特有特征和共有特征，更深层次的挖掘多个复用模型之间的共性和特性，对待训练模型提取的特征给予约束，提升特征的表达能力，从而利用少量有标签数据和大量无标签数据，提升目标模型性能。

以上所述，仅为本申请较佳的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种模型复用方法，其特征在于，包括：

根据目标损失和复用损失，更新待训练模型；

2.如权利要求1所述的模型复用方法，其特征在于，所述数据组合包括单个数据、多个最终特有特征、多个最终共有特征，其中，所述多个最终特有特征和多个最终共有特征的数量与复用模型的数量相同，所述多个最终特有特征中的每个最终特有特征、所述多个最终共有特征中的每个最终共有特征是通过下述方法得到：

将从数据集中提取的单位数据输入复用模型得到复用特征，

3.如权利要求2所述的模型复用方法，其特征在于，所述将复用特征经过映射更新计算更新共有特征映射和特有特征映射，包括：

4.如权利要求3所述的模型复用方法，其特征在于，所述比较是否网络收敛包括：

5.如权利要求2、3或4所述的模型复用方法，其特征在于，在所述如果收敛，得到与所述单位数据对应的一个最终共有特征和一个最终特有特征之后，还包括：

使用最终共有特征映射提取每个复用特征的最终共有特征；

使用最终特有特征映射提取每个复用特征的最终特有特征。

6.如权利要求3所述的模型复用方法，其特征在于，所述基于对抗学习方法，根据所述共有特征来更新所述共有特征映射，包括：

使用对抗损失，更新共有特征映射。

7.如权利要求3所述的模型复用方法，其特征在于，所述基于自动编码器的方法，根据所述共有特征和所述特有特征来更新所述特有特征映射，包括：

8.如权利要求1所述的模型复用方法，其特征在于，在所述将通过数据集中的多个数据得到的多个数据组合输入至待训练模型之前，还包括：

9.如权利要求1所述的模型复用方法，其特征在于，在所述基于模型复用损失函数，得到复用损失之前，还包括：

10.一种模型复用系统，其特征在于，包括：