CN115398450A

CN115398450A - 使用基于样本的正则化技术的迁移学习设备和方法

Info

Publication number: CN115398450A
Application number: CN202180027418.XA
Authority: CN
Inventors: 崔容硕; 全润镐; 金智元; 朴载善; 李守彬; 赵东衍
Original assignee: SK Telecom Co Ltd
Current assignee: SK Telecom Co Ltd
Priority date: 2020-05-07
Filing date: 2021-04-13
Publication date: 2022-11-25
Also published as: WO2021225294A1; US20230153631A1; KR102421349B1; KR20210136344A

Abstract

本实施方式提供了一种迁移学习设备和方法，所述迁移学习设备和方法在通过使用少量的训练样本训练通过采用预先训练好的源模型的结构和参数来初始化的目标模型时，通过使用基于样本的正则化技术来微调目标模型能够提高目标模型的性能，该基于样本的正则化技术增加了从包含在同一类中的训练样本中提取的特征之间的相似性。

Description

使用基于样本的正则化技术的迁移学习设备和方法

技术领域

本公开涉及用于使用基于样本的正则化的迁移学习的设备和方法。更具体地，本公开涉及能够使用基于样本的正则化来微调目标模型的迁移学习设备和方法，该基于样本的正则化增加了训练样本中固有的特征之间的相似性。

背景技术

本部分中的陈述仅提供与本公开相关的背景信息，并且不一定构成现有技术。

迁移学习是深度学习领域中的一个研究领域，其使用针对已经完成学习特定任务的模型获得的知识来训练用于执行类似任务的新模型。迁移学习可以应用于使用基于深度学习的深度神经网络模型的任何领域，并且是用于训练要应用于难以获得足够的训练数据的任务的模型的关键方法之一。

如图1所示，典型的迁移学习方法通过以下方式来对目标模型100进行微调：通过借用被预先训练以执行源任务的源模型110的结构和参数来初始化用于与源任务类似的目标任务的目标模型100，并且进一步使用特定于目标任务的训练数据来训练目标模型100。

微调预训练模型具有以下优点：由于采用整个源模型110或仅借用图1中所示的特征提取子系统，所以可以节省用于学习的额外时间和存储器。另一方面，因为用于微调的训练通常依赖于少量的训练数据，所以从迁移学习实现的目标模型100的泛化性能是必要的。适当的正则化技术可以用于迁移学习的微调过程，以防止由少量训练数据产生的过拟合(overfitting)并改进泛化性能。基于正则化技术的迁移学习包括用于通过向损失函数添加减小源模型110(参考非专利参考1)的参数之间的差的正则化项、减小源模型110与目标模型100的激活水平之间的差(参考非专利参考2)的正则化项和抑制导致具有小量值的奇异值的特征的激活(参考非专利参考3)的正则化项来执行训练用于微调的目标模型的方法。

假定源模型110的有价值知识也可以针对目标模型100工作，上述现有方法提供了通过尽可能多地增加源模型110与目标模型100之间的相似性来改进目标模型100的泛化性能的优点。然而，现有的正则化技术具有它们可能限制目标模型100的潜力的缺点，并且从源模型110迁移的知识可能干扰微调过程。换句话说，如果源任务与目标任务之间的间隙较大，则基于源模型110的知识将正则化项应用于目标模型100的微调可能不会帮助改善目标模型100的性能。

因此，需要一种能够通过基于从训练样本中提取的特征执行用于微调的训练而不是使用源模型作为正则化参考来改进目标模型的性能的迁移学习设备和方法。

(现有技术参考)

(非专利文献)

非专利参考文献1：Li,X.、Grandvalet,Y.、Davoine,F.：Explicit inductivebias for transfer learning with convolutional networks.In:InternationalConference on Machine Learning(ICML)(2018)。

非专利参考文献2：Li,X.、Xiong,H.、Wang,H.、Rao,Y.、Liu,L.、Huan,J.：DELTA:Deep learning transfer using feature map with attention for convolutionalnetworks.In:International Conference on Learning Representations(ICLR)(2019)。

非专利参考文献3：Chen,X.、Wang,S.、Fu,B.、Long,M.、Wang,J.：Catastrophicforgetting meets negative transfer:Batch spectral shrinkage for safe transferlearning.In:Advances in Neural Information Processing Systems(NeurIPS)(2019)。

发明内容

技术问题

在训练通过借用预训练的源模型的结构和参数来初始化的目标模型时，本公开旨在提供一种能够通过使用基于样本的正则化微调目标模型来改进目标模型的性能的迁移学习设备和方法，该基于样本的正则化增加了从属于同一类的训练样本中提取的特征之间的相似性。

技术方案

本公开的至少一个实施方式提供了一种用于迁移学习设备的目标模型的迁移学习方法，所述方法包括：使用所述目标模型从输入样本提取特征并且使用所述特征生成将所述输入样本分类为类的输出结果，其中，所述目标模型包括提取所述特征的特征提取器和生成所述输出结果的分类器；使用所述输出结果和与所述输入样本相对应的标签来计算分类损失；基于从属于同一类的输入样本对提取的特征对来计算基于样本的正则化(SBR)损失；以及基于所述分类损失和所述SBR损失的全部或部分来更新所述目标模型的参数。

本公开的另一实施方式提供了一种包括目标模型的迁移学习设备，所述目标模型包括：特征提取器，所述特征提取器从输入样本提取特征；以及分类器，所述分类器使用所述特征生成将所述输入样本分类为类的输出结果，其中，所述目标模型是通过使用所述输出结果和与所述输入样本相对应的标签计算分类损失来训练的；基于从属于同一类的输入样本对提取的特征对计算基于样本的正则化(SBR)损失；以及基于所述分类损失和所述SBR损失的全部或部分来更新所述特征提取器和所述分类器中的至少一者的参数。

本公开的又一实施方式提供一种分类设备，所述分类设备基于目标模型产生将输入样本分类为类的输出结果，所述目标模型包括：特征提取器，所述特征提取器从所述输入样本提取特征；以及分类器，所述分类器基于所述特征将所述输入样本分类为类，其中，通过使用输入训练样本的输出结果和与所述输入训练样本相对应的标签计算分类损失来对所述目标模型进行预训练；基于从属于同一类的输入训练样本对提取的特征对计算基于样本的正则化SBR损失；以及基于所述分类损失和所述SBR损失的全部或部分来更新所述特征提取器和所述分类器中的至少一者的参数。

本公开的又一实施方式提供了一种存储指令的计算机可读记录介质，所述指令在由所述计算机执行时使得所述计算机执行：使用目标模型从输入样本提取特征并且使用所述特征生成将所述输入样本分类为类的输出结果，其中，所述目标模型包括提取所述特征的特征提取器和生成所述输出结果的分类器；使用所述输出结果和与所述输入样本相对应的标签来计算分类损失；基于从属于同一类的输入样本对提取的特征对计算基于样本的正则化(SBR)损失；以及基于所述分类损失和所述SBR损失的全部或部分来更新所述目标模型的参数。

有益效果

如上所述，在使用少量训练样本训练目标模型时，本实施方式提供了一种能够使用基于样本的正则化技术来微调目标模型的迁移学习设备和方法，该基于样本的正则化技术增加了从属于同一类的训练样本中提取的特征之间的相似性，从而防止过拟合并改善目标模型的性能。

此外，在使用少量训练样本训练目标模型时，本实施方式提供了一种能够通过高效地计算基于样本的正则化项来微调目标模型的迁移学习设备和方法，该基于样本的正则化项增加了从属于同一类的训练样本中提取的特征之间的相似性，从而降低了训练目标模型的复杂度性。

附图说明

图1示出了迁移学习方法的概念。

图2示出了根据本公开的一个实施方式的迁移学习设备的框图。

图3示出了根据本公开的一个实施方式的基于样本的正则化的概念。

图4示出了根据本公开的一个实施方式的迁移学习方法的流程图。

具体实施方式

在下文中，将参考附图详细描述本公开的一些实施方式。在下面的描述中，相同的附图标记优选表示相同的元件，尽管在不同的附图中示出了这些元件。此外，在一些实施方式的以下描述中，为了清楚和简洁起见，将省略当被认为模糊本公开的主题时相关的已知部件和功能的详细描述。

另外，诸如第一、第二、A、B、(a)、(b)等的各种术语仅用于将一个部件与另一个部件区分开，而不是隐含或暗示部件的实体、顺序或次序。在整个说明书中，当零件“包括”或“包含”部件时，该零件意在进一步包括其他部件，不排除该部件，除非有相反的明确说明。诸如“单元”、“模块”等术语是指用于处理至少一个功能或操作的一个或更多个单元，其可以由硬件、软件或其组合来实现。

下文将结合附图公开的详细描述旨在描述本公开的说明性实施方式，并且不旨在表示可以实践本公开的仅有实施方式。

本公开涉及用于使用基于样本的正则化的迁移学习的设备和方法。更具体地，本公开提供了一种能够通过使用基于样本的正则化微调目标模型来改进目标模型的性能的迁移学习设备和方法，该基于样本的正则化增加了从属于同一类的训练样本中提取的特征之间的相似性。

如图1所示，迁移学习通常涉及用于源任务的源模型110的预训练、源模型110的结构和参数到目标模型的迁移、以及用于目标任务的目标模型100的微调中的所有；然而，在下面的内容中，将描述具有与基于训练数据的稀疏集合的微调的实现有关的特性的迁移学习设备和方法。

在源模型110和目标模型100二者都执行分类的深度神经网络的情况下，每个深度神经网络可以包括特征提取器和分类器，如图1所示。产生被分类为最终类的输出的线性层可以被认为是分类器，并且包括获得输入的层(例如，图1的层1)到向分类器发送输出的层(例如，图1的层L(其中L是自然数))的层的部分可以被认为是特征提取器。

在本实施方式中，假设在具有相同结构的基于深度学习的深度神经网络模型之间执行迁移动作。

假设根据本实施方式的迁移学习设备和方法在服务器(图中未示出)或具有与服务器的计算能力相当的计算能力的可编程系统上实现。

根据本公开的实施方式，在训练通过借用预训练的源模型110的结构和参数初始化的目标模型100时，迁移学习设备200使用基于样本的正则化技术来执行目标模型100的微调，该基于样本的正则化技术增加了从属于同一类的训练样本中提取的特征之间的相似性。迁移学习设备200包括从构成目标模型100的特征提取器202和分类器204到梯度减小层206的组件的全部或部分。应注意，根据本实施方式的迁移学习设备200中所包括的组件可能不一定限于此。例如，迁移学习设备200还可以包括用于训练基于深度神经网络的目标模型的训练单元(未示出)，或者可以被实现为结合外部训练单元来操作。

根据本实施方式的目标模型100的特征提取器202从输入训练样本中提取特征。

目标模型100的分类器204基于所提取的特征生成将输入样本分类为类的输出。

根据本实施方式的梯度减小层206由于梯度朝向特征提取器202的向后传播时的分类损失而减小梯度。稍后将描述分类损失和梯度减小层206的作用的细节。

图2的图示是根据本实施方式的示例性结构，并且根据特征提取器和分类器的输入类型和结构和形式，包括构成元件之间的其他构成元件或连接的各种实施方式是可能的。

用于训练目标任务的目标模型100的训练数据可以由N(其中N是自然数)个输入样本x和对应的标签y组成，该训练数据可以由总训练数据集X＝{(x_i,y_i)}表示,i＝1,…,N。另外，特征提取器202由f表示，分类器204由g表示，f和g的参数分别由w_f和w_g表示，并且包括f和g的目标模型100的参数由w表示。

在通过借用预训练的源模型110的结构和参数来初始化目标模型100时，迁移学习设备200的训练单元可以使用源模型110的特征提取器的参数

来初始化特征提取器202的参数，并且将分类器204的参数初始化为随机值。

由根据本实施方式的训练单元训练目标模型100的广义损失函数L_T可以由等式1表示。

[等式1]

在等式1中，第一项表示用于评估用于推断标签的目标模型100的能力的分类损失L_cls，并且第二项是通过将用于改进泛化性能的正则化项Ω(例如，当应用L₂正则化时，

)乘以超参数λ来获得的。

可以基于目标模型100的分类器204的输出与标签之间的相异度来计算分类损失L_cls。在分类器204的情况下，交叉熵主要用于表示输出与标签之间的相异度；然而，本公开不一定限于特定度量，并且可以使用能够表示用于比较的两个对象之间的差异的任何度量，诸如，距离度量(例如，L1度量或L2度量)或相似性度量(例如，余弦相似性、内积或交叉熵)。

除了如等式1所示的正则化项Ω之外，为了进一步改进目标模型的泛化性能，根据本实施方式的训练单元使用附加正则化项。在本实施方式中，从训练样本提取的特征用作正则化的参考而不是源模型110。如图3所示，属于同一类的每个样本可以用作用于正则化的相互参考，并且在下面的内容中，基于样本计算正则化项的方法被称为基于样本的正则化(SBR)技术。通过使用SBR训练目标模型100以使同一类中的样本之间的相似性最大化，训练单元可以防止由于使用少量训练数据而导致的过拟合。

在使包括在同一类中的每个样本的特性类似的方面，相似性的最大化可以被认为是用于基于交叉熵执行分类的目标模型100的泛化训练方法。然而，根据本实施方式的SBR不直接将不同类中的一样本与其他样本区分开，而是允许目标模型100的分类器204区分相应类。

在本实施方式中，基于SBR的应用的正则化项L_sbr可以由等式2表示。

[等式2]

在等式2中，C表示用于分类的类的总数，并且X_c表示属于被分配一个标签的训练数据当中的类c的样本对(X_c＝{(x_i,x_j)︱y_i＝c,y_j＝c})的集合。函数D测量针对两个目标对象(即，样本对)的特征提取器202的输出之间的相异度。SBR针对属于同一类的两个不同样本引起特征提取器202的输出以具有类似值。SBR考虑属于一个类的所有可能的样本对和包括在训练数据中的所有类。

在本公开的另一实施方式中，在SBR以试图增加所有可能样本对的相似性而不管比较中的两个样本是否属于同一类的简单形式的情况下，正则化项L_sbr可以由等式3表示。

[等式3]

在等式3中，X表示训练数据的整个集合。

如等式2或等式3所示，当从属于同一类的训练数据或数据中考虑所有可能的样本对时，可以花费较长时间来进行训练。为了缓解这种情况，当为了类以小批量(mini-batch)单位执行训练时，可以定义考虑包括在一个小批量中的样本对内的相似性的正则化项，如等式4所示。

[等式4]

在等式4中，N_c表示一个小批量内的类c中包括的样本的数量，并且B_c表示一个小批量内的类c中包括的样本的集合。

表示包括属于一个小批量内的类c的样本的对的总数。

同时，在等式2至等式4中，由函数D测量的相异度可由能够表示用于比较的两个对象之间的差异的任何度量表示，诸如，距离度量(例如，L1或L2度量)或相似性度量(例如，余弦相似性、内积或交叉熵)。

在下面的内容中，正则化项L_sbr被称为SBR损失，以将其与用于损失函数的正则化项Ω区分开。

如上所述，在用于分类的训练中，当使用基于交叉熵的损失函数和少量训练数据来训练深度神经网络模型时，少量训练数据与用于实际分类的数据之间的分布可以是不同的。经训练的模型的分类性能可能由于因分布之间的变化而导致的过拟合的可能性而严重劣化。

因此，如等式5所示，根据本实施方式的训练单元使用不同的损失函数L_f和L_g来用于训练包括在目标模型100中的特征提取器202和分类器204，以应付由于过拟合而导致的性能劣化。

[等式5]

L_g＝L_cls+λ_gΩ(w，·)

L_f＝αL_cls+βL_sbr+λ_fΩ(w，·)

如等式1所示，L_cls表示评估用于推断标签的目标模型100的能力的分类损失。分类器204的损失函数L_g是L_cls和Ω的线性组合，并且特征提取器202的损失函数L_f是L_cls、L_sbr和Ω的加权组合。这里，α、β、λ_g和λ_f是超参数。损失函数L_f中使用的L_sbr表示在等式4中所示的SBR损失。然而，本公开不一定限于此，并且可以使用在等式2或等式3中示出的SBR损失。

根据本实施方式的训练单元可以通过使用如等式5所示的损失函数更新特征提取器202和分类器204的参数来微调目标模型100。

通过如等式5所示的分离损失函数，训练单元可以将超参数α调整为以与用于分类器204的比例不同的比例将L_cls反映到特征提取器202的损失函数L_f，并且将超参数β调整为以与L_cls的适当组合将SBR损失L_sbr反映到损失函数L_f。超参数α和β可以被设置为任何值，但是当采用少量的训练数据时，训练单元可以将α设置为小于1的值，以通过相对降低L_cls的比例来降低对标签的依赖性。此外，训练单元可以预期通过将β设定为适当的值基于使用样本对的相对关系的SBR的效果来减小在特征提取器202上过拟合的效果。

同时，训练单元可以更新参数w_f和w_g以微调目标模型100，如等式6所示。

[等式6]

在等式6中，η_g和η_f是表示用于调整分类器204和特征提取器202的每个训练速度的学习速率的超参数。此外，

是表示每个损失项的梯度计算的算子。

如图2和等式6所示，在计算特征提取器202的损失函数L_f时将L_cls与α相乘等价于将

乘以α并递送乘法结果，

是在基于后向传播的训练时从分类器204朝向特征提取器202(即，在后向方向上)递送的L_cls的梯度。因此，如上所述，当α被设定为小于1的值时，梯度减小，并且L_cls在特征提取器202被训练时的效果可以相对减小。如图2中所示，梯度减小层206可以通过将基于L_cls的后向梯度与α相乘产生与通过将L_cls与α相乘而获得的相同的效果。

根据等式6，当特征提取器202被训练时，可以通过调整学习速率η_f来减小梯度，但是学习速率可以对损失函数L_f的所有项具有共同效果。因此，使用超参数α的梯度减小来独立地调整L_cls的效果在训练特征提取器202时可能更有效。

同时，当欧几里德距离的平方被用作SBR损失L_sbr时，训练单元可以使用用于改善学习速率的方法，如下所示。使用欧几里德距离的平方的

可以由等式7表示。

[等式7]

使用数学运算，等式7可以被转换为等式8。

[等式8]

在等式8中，C_c表示针对属于一个小批量内的类c的所有样本的特征提取器202的输出的平均值，其可以由等式9表示。

[等式9]

代替计算针对

样本对的特征提取器202的输出之间的差，如等式8所示，训练单元计算针对每个类的特征提取器202的输出的平均值(C_c)，并且计算来自特征提取器202的N_c个样本的平均值和输出之间的差。使用等式8所示的修改可以利用更少量的操作获得与等式7表示的相同结果；在渐近计算复杂度方面，等式7具有

的复杂度，而等式8具有O(N_c)的复杂度。因此，当基于欧几里德距离的平方以小批量为单位执行训练时，可以更高效地计算SBR损失，如等式8所示。

根据以上描述的本实施方式，在使用少量训练样本训练目标模型时，可以通过提供迁移学习设备来降低目标模型的训练复杂度，该迁移学习设备通过高效地计算基于样本的正则化项来微调目标模型，该基于样本的正则化项增加从属于同一类的训练样本中提取的特征之间的相似性。

根据本实施方式的迁移学习设备200的训练单元使用目标模型从输入样本提取特征，并且使用所提取的特征生成将输入样本分类为类的输出结果S400。这里，目标模型100包括提取特征的特征提取器202和生成输出结果的分类器204。

基于深度神经网络来实现目标模型100，并且使用预训练的、基于深度神经网络的源模型110的结构和参数来初始化目标模型100。训练单元可以使用源模型110的特征提取器的参数来初始化目标模型100的特征提取器202的参数，并且将分类器204的参数初始化为随机值。

假设少量训练数据用于迁移学习，并且训练数据包括输入样本。

训练单元使用输出结果和与输入样本相对应的标签来计算分类损失S402。

分类损失是用于评估目标模型推断标签的能力的损失项，其可以基于目标模型100的分类器204的输出与标签之间的相异度来计算。在分类器204的情况下，交叉熵主要用于标识输出与标签之间的相异度；然而，本公开不一定限于特定度量，并且可以使用能够标识用于比较的两个对象之间的差异的任何度量，诸如，距离度量(例如，L1度量或L2度量)或相似性度量(例如，余弦相似性、内积或交叉熵)。

训练单元基于从属于同一类的输入样本对提取的特征对计算基于样本的正则化(SBR)损失S404。

为了进一步提高目标模型100的泛化性能，训练单元使用SBR损失作为正则化项。从输入训练样本提取的特征用作正则化的参考而不是源模型110。属于同一类的每个样本可以用作用于正则化的相互参考，并且在下面的内容中，基于样本计算正则化项的方法被称为基于样本的正则化(SBR)技术。通过使用SBR训练目标模型100以使针对同一类中的样本的输出之间的相似性最大化，训练单元可以防止由于使用少量训练数据而导致的过拟合。

训练单元基于构成从属于同一类的输入样本对提取的特征对的两个特征之间的相异度来计算SBR损失。

当从属于同一类的数据中考虑所有可能的样本对时，可以花费较长时间来进行训练。为了缓解这种情况，当以针对类的小批量为单位执行训练时，可以基于从包括在一个小批量中的样本对提取的特征对的相异度来计算SBR损失。此处，能够表示用于比较的两个对象之间的差异的任何度量(诸如，距离度量(例如，L1度量或L2度量)或相似性度量(例如，余弦相似性、内积或交叉熵))都可用于表示相异度。

训练单元基于分类损失和SBR损失的全部或部分来更新目标模型的参数S406。

在更新参数以微调目标模型时，训练单元使用不同的损失函数来训练包括在目标模型100中的特征提取器202和分类器204，以应付由于过拟合而导致的性能劣化。使用分类损失来生成分类器204的损失函数，并且使用分类损失和SBR损失在超参数方面的加权组合来生成特征提取器202的损失函数。因此，训练单元可以基于分类损失来更新分类器204的参数，并且基于分类损失和SBR损失来更新特征提取器202的参数。

通过分离损失函数，训练单元可以将乘以分类损失的超参数调整为以与用于分类器204的比例不同的比例将分类损失反映到特征提取器的损失函数。当采用少量训练数据时，训练单元可以将超参数设定为小于1的值，以通过相对减小分类损失的比例来降低对标签的依赖性。

同时，在计算特征提取器202的损失函数时将分类损失与超参数相乘等效于将在基于后向传播的训练时从分类器204朝向特征提取器202递送的分类损失的梯度与超参数相乘，并递送乘法结果。因此，如上所述，当超参数被设定为小于1的值时，梯度减小，并且当特征提取器202被训练时分类损失的效果可以相对减小。

如上所述，在使用少量训练样本训练目标模型时，本实施方式提供了一种能够使用基于样本的正则化技术来微调目标模型的迁移学习设备和方法，该基于样本的正则化技术增加了从属于同一类的训练样本中提取的特征之间的相似性，从而防止过拟合，并且改进了目标模型的性能。

尽管已经描述了根据实施方式在每个流程图中顺序地执行每个过程，但是本发明不限于此。换句话说，流程图的过程可以改变，或者过程中的一个或更多个可以并行地执行，并且流程图不限于时间序列顺序。

本文描述的系统和方法的各种实施方式可以通过数字电子电路、集成电路、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、计算机硬件、固件、软件和/或它们的组合来实现。这些各种实施方式可以包括在可编程系统上可执行的一个或更多个计算机程序中实现的那些实施方式。可编程系统包括至少一个可编程处理器，其被联接以从存储系统、至少一个输入装置和至少一个输出装置接收数据和指令，并且向存储系统、至少一个输入装置和至少一个输出装置发送数据和指令，其中，可编程处理器可以是专用处理器或通用处理器。计算机程序(也称为程序、软件、软件应用或代码)包含用于可编程处理器的指令并且被存储在“计算机可读记录介质”中。

计算机可读记录介质表示用于向可编程处理器提供指令和/或数据的实体，诸如，任何计算机程序产品、设备和/或装置，例如，非易失性或非暂态记录介质，诸如，CD-ROM、ROM、存储卡、硬盘、磁光盘、存储装置。此外，计算机可读记录介质可以分布在通过网络连接的计算机系统上，并且计算机可读程序代码可以以分布式方式存储和执行。

虽然已经出于说明性目的描述了本公开的示例性实施方式，但是本领域技术人员将理解，在不脱离所要求保护的发明的构思和范围的情况下，可以进行各种修改、添加和替换。因此，为了简洁和清楚起见，已经描述了本公开的示例性实施方式。本实施方式的技术思想的范围不受图示的限制。因此，本领域普通技术人员将理解，所要求保护的发明的范围不受上述明确描述的实施方式的限制，而是受权利要求及其等同物的限制。

(附图标记)

100：目标模型 110：源模型

200：迁移学习设备 202：特征提取器

204：分类器 206：梯度减小层

Claims

1.一种用于迁移学习设备的目标模型的迁移学习方法，所述方法包括以下步骤：

使用所述目标模型从输入样本提取特征并使用所述特征生成将所述输入样本分类为类的输出结果，其中，所述目标模型包括提取所述特征的特征提取器和生成所述输出结果的分类器；

使用所述输出结果和与所述输入样本相对应的标签来计算分类损失；

基于从属于同一类的输入样本对提取的特征对来计算基于样本的正则化SBR损失；以及

基于所述分类损失和所述SBR损失的全部或部分来更新所述目标模型的参数。

2.根据权利要求1所述的方法，所述方法还包括以下步骤：

由于在梯度朝向所述特征提取器的后向传播时使用梯度减小层将分类损失乘以超参数而减小梯度。

3.根据权利要求1所述的方法，其中，基于深度神经网络来实现所述目标模型，并且使用预训练的、基于深度神经网络的源模型的结构和参数来初始化所述目标模型，

其中，基于所述源模型的参数来初始化所述特征提取器的参数，并且将所述分类器的参数初始化为随机值。

4.根据权利要求1所述的方法，其中，所述分类损失是基于所述输出结果与所述标签之间的相异度计算的，并且所述SBR损失是基于构成所述特征对的两个特征之间的相异度来计算的。

5.根据权利要求1所述的方法，其中，更新所述参数的步骤基于所述分类损失来更新所述分类器的参数，并且基于所述分类损失和所述SBR损失来更新所述特征提取器的参数。

6.根据权利要求1所述的方法，其中，在针对同一类以小批量为单位训练所述目标模型时，基于从包括在所述小批量中的输入样本提取的特征与从包括在所述小批量中的所有输入样本提取的特征的平均值之间的欧几里德距离的平方来计算所述SBR损失。

7.一种包括目标模型的迁移学习设备，

所述目标模型包括：

特征提取器，所述特征提取器从输入样本提取特征；以及

分类器，所述分类器使用所述特征生成将所述输入样本分类为类的输出结果，

其中，所述目标模型通过以下方式来训练：使用所述输出结果和与所述输入样本相对应的标签计算分类损失；

基于所述分类损失和所述SBR损失的全部或部分来更新所述特征提取器和所述分类器中的至少一者的参数。

8.根据权利要求7所述的设备，所述设备还包括梯度减小层，所述梯度减小层由于在所述梯度朝向所述特征提取器的向后传播时将所述分类损失乘以超参数而减小梯度。

9.根据权利要求7所述的设备，其中，所述目标模型是基于深度神经网络来实现的，并且使用预先训练的、基于深度神经网络的源模型的结构和参数来初始化所述目标模型，

其中，所述特征提取器的参数是基于所述源模型的参数来初始化的，并且所述分类器的参数被初始化为随机值。

10.一种基于目标模型生成将输入样本分类为类的输出结果的分类设备，所述分类设备包括：

特征提取器，所述特征提取器从输入样本提取特征；以及

分类器，所述分类器基于所述特征将所述输入样本分类为类，

其中，所述目标模型通过以下方式被预训练：

使用针对输入训练样本的输出结果和与所述输入训练样本相对应的标签计算分类损失；

基于从属于同一类的输入训练样本对提取的特征对来计算基于样本的正则化SBR损失；以及

11.一种存储指令的计算机可读记录介质，所述指令在由计算机执行时使得所述计算机执行：

使用目标模型从输入样本提取特征，并且使用所述特征生成将所述输入样本分类为类的输出结果，其中，所述目标模型包括提取所述特征的特征提取器和生成所述输出结果的分类器；