CN108805185A

CN108805185A - 模型的训练方法、装置、存储介质及计算机设备

Info

Publication number: CN108805185A
Application number: CN201810530822.9A
Authority: CN
Inventors: 李安平; 李绍欣; 陈超; 沈鹏程; 吴双; 李季檩
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-05-29
Filing date: 2018-05-29
Publication date: 2018-11-13
Anticipated expiration: 2038-05-29
Also published as: US11436435B2; US20200364502A1; WO2019228122A1; EP3805988A1; CN108805185B; EP3805988A4

Abstract

本申请涉及一种模型的训练方法，方法包括：读取当前组训练样本，当前组训练样本基于训练集确定；通过待训练模型，获得当前组训练样本中的各训练样本的第一样本特征，并基于各训练样本所属的分类类别和各第一样本特征，获得与各训练样本分别对应的中心特征；获得各训练样本分别对应的特征分布参数，训练样本对应的特征分布参数是对训练集中、属于该训练样本所属的分类类别的各训练样本的第二样本特征进行统计获得，训练样本的第二样本特征由已训练模型基于该训练样本输出；基于各中心特征和各特征分布参数，获得当前组训练样本对应的综合损失参数，并基于综合损失参数调整待训练模型的模型参数。本申请提供的方案能够提高模型的训练效率。

Description

模型的训练方法、装置、存储介质及计算机设备

技术领域

本申请涉及计算机技术领域，特别是涉及一种模型的训练方法、装置、计算机可读存储介质及计算机设备。

背景技术

随着AI(Artificial Intelligence，人工智能)技术的发展，各种各样的分类任务均可以通过机器学习模型实现，例如图像分类任务、语音分类任务、文本分类任务等。在执行实际分类任务之前，需要先进行模型训练，获得具备相应分类能力的机器学习模型。

传统的模型训练方式，是先获得训练集，训练集包括具有类别标签的训练样本，类别标签用于表征训练样本的真实分类结果，再将训练样本输入待训练模型中，待训练模型自行获得训练样本的模型预测结果，并根据训练样本的模型预测结果与其类别标签之间的差异，迭代调整待训练模型的模型参数，并在满足训练停止条件时停止训练。然而，传统方式训练耗时较长，效率低下。

发明内容

基于此，有必要针对传统技术中训练效率低下的技术问题，提供一种模型的训练方法、装置、计算机可读存储介质及计算机设备。

一种模型的训练方法，包括：

读取当前组训练样本，所述当前组训练样本基于训练集确定；

通过待训练模型，获得所述当前组训练样本中的各训练样本的第一样本特征，并基于各所述训练样本所属的分类类别和各所述第一样本特征，获得各所述训练样本分别对应的中心特征；

获得各所述训练样本分别对应的特征分布参数，训练样本对应的特征分布参数是对所述训练集中、属于该训练样本所属的分类类别的各训练样本的第二样本特征进行统计获得，训练样本的第二样本特征由已训练模型基于该训练样本输出；

基于各所述中心特征和各所述特征分布参数，获得所述当前组训练样本对应的综合损失参数，并基于所述综合损失参数调整所述待训练模型的模型参数。

一种模型的训练装置，包括：

训练样本读取模块，用于读取当前组训练样本，所述当前组训练样本基于训练集确定；

中心特征获取模块，用于通过待训练模型，获得所述当前组训练样本中的各训练样本的第一样本特征，并基于各所述训练样本所属的分类类别和各所述第一样本特征，获得各所述训练样本分别对应的中心特征；

分布参数获取模块，用于获得各所述训练样本分别对应的特征分布参数，训练样本对应的特征分布参数是对所述训练集中、属于该训练样本所属的分类类别的各训练样本的第二样本特征进行统计获得，训练样本的第二样本特征由已训练模型基于该训练样本输出；

模型参数调整模块，用于基于各所述中心特征和各所述特征分布参数，获得所述当前组训练样本对应的综合损失参数，并基于所述综合损失参数调整所述待训练模型的模型参数。

一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行上述模型的训练方法的步骤。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行上述模型的训练方法的步骤。

如上所述的方案，基于训练样本的第一样本特征以及所属的分类类别，获得训练样本对应的中心特征，并获得训练样本对应的特征分布参数，特征分布参数是对训练集中、属于该训练样本所属的分类类别的各训练样本的第二样本特征进行统计获得，且第二样本特征由已训练模型输出，继而，基于中心特征和特征分布参数调整待训练模型的模型参数。如此，相较于仅基于类别标签进行监督的传统方式，基于已训练模型的输出对待训练模型的训练进行监督，能够将已训练模型的有用信息迁移到待训练模型中，训练效率更高。并且，以统计获得的特征分布参数作为监督信号，而非以已训练模型输出的单个样本特征作为监督信号，能够稀释已训练模型的错误输出带来的影响，提高了待训练模型对已训练模型的错误输出的抗干扰能力。

附图说明

图1为一个实施例中模型的训练方法的应用环境图；

图2为一个实施例中模型的训练方法的流程示意图；

图3为一个实施例中模型的训练方法的流程示意图；

图4为一个实施例中实现模型的训练方法的组件示意图；

图5为一个实施例中模型的训练方法的简化流程示意图；

图6为一个实施例中损失参数的曲线变化示意图；

图7为一个实施例中命中率的曲线变化示意图；

图8为一个实施例中模型的训练装置的结构框图；

图9为一个实施例中计算机设备的结构框图；

图10为一个实施例中计算机设备的结构框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

需要说明的是，本申请所使用的术语“第一”、“第二”等是用于对类似的对象作出命名上的区分，但这些对象本身不受这些术语限制。应当理解，在不脱离本申请的范围的情况下，这些术语在适当的情况下可以互换。例如，可将“第一损失参数”描述为“第二损失参数”，且类似地，将“第二损失参数”描述为“第一损失参数”。

并且，术语“包括”、“包含”、“具有”以及它们的任何变形，意图在于覆盖不排他的包含。例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于已清楚地列出的步骤或单元，而是还可以包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本申请各实施例提供的模型的训练方法，可以应用于如图1所示的应用环境中。该应用环境可以涉及用户终端110和服务器120，用户终端110和服务器120可以通过网络连接。具体地，可以将用户终端110上的训练集上传至服务器120，再由服务器120基于该训练集中的训练样本对待训练模型进行模型训练；也可以将服务器120上的训练集下发至用户终端110，再由用户终端110基于该训练集中的训练样本对待训练模型进行模型训练。

可以理解，本申请并不限于图1所示的应用环境，而是可以应用于任何适用的应用环境。例如，在其他应用环境中，也可以不涉及图1所示的服务器120，而是由用户终端110直接基于本地的训练集中的训练样本，对待训练模型进行训练。

此外，用户终端110可以是台式终端或移动终端，台式终端可以包括台式电脑等，移动终端可以包括手机、平板电脑、笔记本电脑、个人数字助理和穿戴式设备等中的至少一种。服务器120可以用独立的物理服务器，或者多个物理服务器构成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种模型的训练方法。以该方法应用于计算机设备(如上述图1中的用户终端110或服务器120)为例进行说明。该方法可以包括如下步骤S202至S208。

S202，读取当前组训练样本，当前组训练样本基于训练集确定。

训练集又称为训练数据集，其包括训练待训练模型需要使用的训练样本。训练样本是已标记真实所属的分类类别的样本，具体地，训练样本带有类别标签，类别标签用于表征相应训练样本真实所属的分类类别。类别标签可以由人工分析确定，例如由相关技术领域的专家确定。

可以理解，不同的分类任务，可以使用不同的训练样本。例如，对于图像分类任务，训练样本可以是图像样本，更具体地，对于人脸识别任务，训练样本可以是人脸图像样本；对于音频分类任务，训练样本可以是音频样本；对于文本分类任务，训练样本可以是文本样本等等。

当前组训练样本包括本次进行模型参数的调整需要使用的训练样本。可以理解，通常需要进行多次模型参数的调整才能够完成对待训练模型的训练。在训练待训练模型的过程中，基于读取的每一组当前组训练样本，均调整一次待训练模型的模型参数。

在一个实施例中，当前组训练样本基于训练集确定，当前组训练样本可以包括训练集中的部分训练样本。在此情况下，训练集被划分为若干组训练样本(亦可称之为若干个样本数据块)，每一组训练样本均包括一个以上的训练样本。而后，每一次对待训练模型的模型参数进行调整之前，均先从各组训练样本中，选取一组训练样本作为当前组训练样本，再基于该当前组训练样本调整一次待训练模型的模型参数。可以理解，每一组训练样本包括的训练样本的数目可以基于实际需求和人为经验确定，例如训练集Sett1包括5000张图像样本，可以将训练集划分为100组图像样本，每一组图像样本均包括50张图像样本。

在另一个实施例中，当前组训练样本也可以包括训练集中的全部训练样本，即当前组训练样本就是完整的训练集。

需要说明的是，一般在训练集包括较多训练样本时，将训练集划分为若干组训练样本，每读取一组训练样本，便基于该组训练样本调整一次待训练模型的模型参数。反之，训练集包括较少训练样本时，可以不划分训练集，每读取一次完整的训练集，便基于该训练集调整一次待训练模型的模型参数。

读取当前组训练样本，可以是将当前组训练样本中的各训练样本输入待训练模型。具体地，可以是将该各训练样本依次输入待训练模型。

S204，通过待训练模型，获得当前组训练样本中的各训练样本的第一样本特征，并基于各训练样本所属的分类类别和第一样本特征，获得与各训练样本分别对应的中心特征。

待训练模型，可以是待进行模型训练的机器学习模型。模型训练的意义是使待训练模型学习训练样本所蕴含的内在规律，从而使模型具备完成相应分类任务的能力。具体地，模型训练可以包括基于训练样本对待训练模型的模型参数进行调整。

具体地，待训练模型可以是机器学习模型范畴下的深度学习模型，例如卷积神经网络(Convolution Neural Network，CNN)。对于深度学习模型而言，其无需人为基于训练样本设计模型的输入特征，而是可以直接将训练样本输入其中，进而深度学习模型自行学习训练样本，并预测训练样本所属的分类类别。

样本特征，可以用于表征训练样本的特性，该特性可以作为模型预测该训练样本所属的分类类别的依据。第一样本特征是由待训练模型基于训练样本获得的样本特征。并且，各训练样本分别对应一个第一样本特征。

以训练样本是图像样本为例，对于输入待训练模型的任一图像样本，其第一样本特征，可以是待训练模型对该图像样本进行卷积(Convolution)、池化(Pooling)、激活(Relu)等处理后抽象出的一个图像特征。并且，该图像特征具体可以是维数较低且非常精简的特征，例如1×n_d的特征向量n_d表示特征维数。

中心特征，可以用于表征其对应的训练样本所属的分类类别下的各训练样本的第一样本特征的中心点所在。在一个实施例中，本质上，中心特征可以为均值。

在本实施例中，当前组训练样本中的各训练样本分别对应一个中心特征。并且，对于任一训练样本而言，其对应的中心特征可以基于该训练样本的第一样本特征、以及该训练样本所属的分类类别进行确定。

在一个实施例中，对于任一训练样本，可以采用如下方式确定其对应的中心特征：先确定该训练样本所属的分类类别对应的当前中心特征，分类类别对应的当前中心特征由属于该分类类别，且在该训练样本之前输入待训练模型的各训练样本的第一样本特征确定。继而，基于该训练样本的第一样本特征更新该当前中心特征，获得该训练样本所属的分类类别对应的更新后中心特征，该更新后中心特征即可以为该训练样本对应的中心特征。

需要说明的是，当某一训练样本是其所属的分类类别中、第一个对其对应的中心特征进行确定的训练样本，即在该训练样本之前，未曾确定过该分类类别下的任一训练样本对应的中心特征，此时，获取到的该分类类别对应的当前中心特征是中心特征初始值，中心特征初始值是初始化中心特征时确定的一个随机值。对于任一分类类别而言，其对应的当前中心特征值，从中心特征初始值开始，基于各训练样本的第一样本特征不断更新，逐渐接近属于该分类类别的各训练样本的真实均值。

举例说明，待训练模型M1的分类任务是识别人脸图像是否是“张三”，即分类类别包括“是张三”和“不是张三”。训练集Sett2包括训练样本TS1至TS6，共计六张人脸图像样本。训练样本TS1至TS3是一组训练样本，训练样本TS4至TS6是另一组训练样本。并且，训练样本TS1、TS3、TS4、以及TS6的类别标签表征的分类类别是“是张三”，训练样本TS2和TS5的类别标签表征的分类类别是“不是张三”(下文简称示例E-1)。

在第一次对待训练模型进行模型参数调整的过程中，以包括训练样本TS1至TS3的这组训练样本为当前组训练样本。首先，待训练模型获得训练样本TS1的第一样本特征F11，因为训练样本TS1是“是张三”这一分类类别下，第一个确定其对应的中心特征的训练样本，所以基于第一样本特征F11对中心特征初始值进行更新，更新后获得训练样本TS1对应的中心特征CF1。进而，待训练模型获得训练样本TS2的第一样本特征F12，因为训练样本TS2是“不是张三”这一分类类别下，第一个确定其对应的中心特征的训练样本，所以基于第一样本特征F12对中心特征初始值进行更新，更新后获得训练样本TS2对应的中心特征CF2。而后，待训练模型获得训练样本TS3的第一样本特征F13，在训练样本TS3之前，已经确定过同属“是张三”这一分类类别的训练样本TS1对应的中心特征，故基于第一样本特征F13对中心特征CF1进行更新，更新后获得训练样本TS3对应的中心特征CF3。

在第二次对待训练模型进行模型参数调整的过程中，以包括训练样本TS4至TS6的这组训练样本为当前组训练样本。首先，待训练模型获得训练样本TS4的第一样本特征F14，基于第一样本特征F14对中心特征CF3进行更新，更新后获得训练样本TS4对应的中心特征CF4。进而，待训练模型获得训练样本TS5的第一样本特征F15，基于第一样本特征F15对中心特征CF2进行更新，更新后获得训练样本TS5对应的中心特征CF5。而后，待训练模型获得训练样本TS6的第一样本特征F16，基于第一样本特征F16对中心特征CF4进行更新，更新后获得训练样本TS6对应的中心特征CF6。后续各次对待训练模型进行模型参数调整的过程均类似，此处不加赘述。

在一个实施例中，具体可以根据如下公式，对分类类别对应的当前中心特征进行更新：

C_y(i)(t)＝(1-α)C_y(i)(t-1)+αf_i(t)。

其中，y(i)表示第i个训练样本真实所属的分类类别(即第i个训练样本的类别标签表征的分类类别)，C_y(i)(t-1)表示y(i)这一分类类别在t-1时刻对应的中心特征(即y(i)这一分类类别对应的当前中心特征)，C_y(i)(t)表示y(i)这一分类类别在t时刻对应的中心特征(即y(i)这一分类类别对应的更新后中心特征，亦即第i个训练样本对应的中心特征)，f_i(t)表示第i个样本在t时刻的第一样本特征(即第i个样本的当前的第一样本特征)，α表示更新速度控制系数，α越大表示更新速度越快，α越小表示更新速度越慢，例如α的取值可以为0.95。

S206，获得各训练样本分别对应的特征分布参数，训练样本对应的特征分布参数是对训练集中、属于该训练样本所属的分类类别的各训练样本的第二样本特征进行统计获得，训练样本的第二样本特征由已训练模型基于该训练样本输出。

已训练模型，是在开始训练待训练模型之前，就已经训练完毕的机器学习模型，其可以用于帮助训练待训练模型。与待训练模型类似，已训练模型可以为深度学习模型。

具体地，已训练模型的框架结构可以不同于待训练模型。在一个实施例中，已训练模型的规模参数超过待训练模型的规模参数，规模参数包括模型的深度(即模型包括的网络层的层数)。亦即是说，相较于待训练模型，已训练模型是一个模型规模、模型复杂度、以及工作性能(如分类精确度)均更高的模型。

在一个具体示例中，待训练模型和已训练模型的模型框架，均可以基于谷歌的Inception-Resnet框架获得，且已训练模型的网络层数是180、待训练模型的网络层数是80。

需要说明的是，待训练模型和已训练模型的模型框架也可以基于其他模型框架获得，例如VGG(Visual Geometry Group)框架、InceptionV3框架、DenseNet框架等。此外，已训练模型的模型框架可以基于实际需求直接选用现有模型框架，也可以基于实际需求对现有框架做出相应改进获得，还可以基于实际需求完全自主设计获得，本申请不作具体限定。

第二样本特征，是由已训练模型基于其对应的训练样本输出的样本特征。并且，各训练样本分别对应一个第二样本特征。与前文中的第一样本特征类似，以训练样本是图像样本为例，对于输入已训练模型的任一图像样本，其第二样本特征，可以是已训练模型对该图像样本进行卷积(Convolution)、池化(Pooling)、激活(Relu)等处理后抽象出的一个图像特征，该图像特征可以是维数较低且非常精简的特征，例如1×n_d的特征向量n_d表示特征维数。

特征分布参数，可以用于表征其对应的训练样本所属的分类类别下的(即属于其对应的训练样本所属的分类类别的)各训练样本的第二样本特征的数据分布特点，且可以用作训练待训练模型使用的监督信号。在本实施例中，各分类类别分别对应一个特征分布参数，且训练样本对应的特征分布参数即为其所属的分类类别对应的特征分布参数，由此可知，属于同一分类类别的各训练样本，其对应的特征分布参数相同。并且，对于任一训练样本，其对应的特征分布参数，是对训练集中该训练样本所属的分类类别下的各训练样本的第二样本特征进行统计获得。

举例说明，对于前文中的示例E-1，“是张三”和“不是张三”这两个分类类别分别对应的一个特征分布参数，假设“是张三”这一分类类别对应特征分布参数FD1，“不是张三”这一分类类别对应特征分布参数FD2。基于此，训练样本TS1、TS3、TS4、以及TS6对应的特征分布参数，均为“是张三”这一分类类别对应的特征分布参数FD1，训练样本TS2和TS5对应的特征分布参数，均为“不是张三”这一分类类别对应的特征分布参数FD2。

在一个实施例中，特征分布参数本质上可以为高斯分布参数，具体包括均值和协方差。亦即是说，D_i～N(μ_i,Σ_i)，D_i表示第i个训练样本所属的分类类别对应的特征分布，μ_i表示对第i个训练样本所属的分类类别下的各训练样本的第二样本特征进行统计获得的均值，Σ_i表示对第i个训练样本所属的分类类别下的各训练样本的第二样本特征进行统计获得的协方差，N(μ_i,Σ_i)表示一均值为μ_i，协方差为Σ_i的高斯分布函数。此外，协方差的数据形式可以为矩阵。

在本实施例中，对于当前组训练样本中的每一个训练样本，均可以通过待训练模型，基于该训练样本的类别标签获取到该训练样本对应的特征分布参数。

仍以前文中的示例E-1举例说明，首先，已训练模型获得与训练样本TS1至TS6分别对应的第二样本特征F21至F26。继而，对第二样本特征F21、F23、F24、以及F26进行统计，获得“是张三”这一分类类别对应特征分布参数FD1，并对第二样本特征F22和F25进行统计，获得“不是张三”这一分类类别对应特征分布参数FD2。而后，在第一次对待训练模型进行模型参数调整的过程中，以包括训练样本TS1至TS3的这组训练样本为当前组训练样本，待训练模型先基于训练样本TS1的类别标签，获取训练样本TS1对应的特征分布参数FD1，再基于训练样本TS2的类别标签，获取训练样本TS2对应的特征分布参数FD2，继而，基于训练样本TS3的类别标签，获取训练样本TS3对应的特征分布参数FD1。后续各次对待训练模型进行模型参数调整的过程均类似，此处不加赘述。

S208，基于各中心特征和各特征分布参数，获得当前组训练样本对应的综合损失参数，并基于综合损失参数调整待训练模型的模型参数。

综合损失参数，可以用作本次进行模型参数的调整的直接依据。具体地，可以基于综合损失参数进行反向传播，从而调整待训练模型的模型参数。需要说明的是，具体的反向传播方式可以基于任何适用的反向传播方式实现，例如批量梯度下降方式。

模型参数，是进行模型预测时需要使用的参数。模型预测是模型基于其输入进行针对分类任务的预测，并获得对应的预测结果。模型参数可以包括模型中各网络层的权重参数。

具体地，每一次对待训练模型进行模型参数的调整时，均基于相应综合损失参数对上一次调整后的模型参数进行调整。需要说明的是，在开始训练待训练模型之前，需要先进行初始化模型参数，获得初始模型参数。继而，在第一次调整待训练模型的模型参数的过程中，先获得当前组训练样本对应的综合损失参数，再基于该综合损失参数对初始模型参数进行调整，并获得第一次调整后的模型参数。而后，在第二次调整待训练模型的模型参数的过程中，获得另一当前组训练样本对应的综合损失参数，再基于该综合损失参数对第一次调整后的模型参数进行调整，并获得第二次调整后的模型参数。后续各次对待训练模型进行模型参数调整的过程均类似，此处不加赘述。

需要说明的是，本实施例提供的模型的训练方法，本质上是一种模型蒸馏方法。模型蒸馏方法是通过教师模型调教学生模型，以将教师模型中的“知识”迁移到到需要训练的学生模型中，从而使得学生模型的学习效果逼近教师模型。其中，教师模型通常是已经训练好的高精度的大型模型，学生模型可以是需要训练的小型模型。本申请中的已训练模型充当教师模型的角色，待训练模型充当学生模型的角色。

教师模型规模及复杂度均较高，且运算量大，使得其无法适应计算能力有限的嵌入式设备。然而，学生模型结构简单、运算复杂度低、且经过教师模型调教后，其工作性能逼近教师模型，因而可以广泛地部署于各类嵌入式设备上。以人脸识别应用为例，经教师模型调教的学生模型，可以应用于手机端人脸识别、人脸识别门禁系统、人脸识别考勤系统等各种嵌入式设备场景。

此外，进行模型蒸馏时，可以由教师模型针对单一的训练样本输出教师模型预测结果，并将该教师模型预测结果作为监督信号输入学生模型中。学生模型亦针对该单一的训练样本自行获得学生模型预测结果，再基于学生模型预测结果和教师模型预测结果，调整学生模型的模型参数。然而，在此方式下，教师模型输出的教师模型预测结果错误时，会直接导致学生模型进行错误的参数调整，亦即是说，学生模型对教师模型的错误输出的抗干扰能力不强。

本实施例提供的模型的训练方法，基于训练样本的第一样本特征以及所属的分类类别，获得训练样本对应的中心特征，并获得训练样本对应的特征分布参数，特征分布参数是对训练集中、属于该训练样本所属的分类类别的各训练样本的第二样本特征进行统计获得，且第二样本特征由已训练模型输出，继而，基于中心特征和特征分布参数调整待训练模型的模型参数。如此，相较于仅基于类别标签进行监督的传统方式，基于已训练模型的输出对待训练模型的训练进行监督，能够将已训练模型的有用信息迁移到待训练模型中，训练效率更高。并且，以统计获得的特征分布参数作为监督信号，而非以已训练模型输出的单个样本特征作为监督信号，能够稀释已训练模型的错误输出带来的影响，提高了待训练模型对已训练模型的错误输出的抗干扰能力。

在一个实施例中，前文中的获得各训练样本对应的特征分布参数的步骤，即步骤S204，可以包括如下步骤：分别基于各训练样本的类别标签查询预定分布参数集合，获得各训练样本分别对应的特征分布参数；其中，类别标签用于表征相应训练样本所属的分类类别，预定分布参数集合包括与各分类类别分别对应的各特征分布参数。

预定分布参数集合，用于记录与各分类类别分别对应的各特征分布参数，其可以供查找分类类别对应的特征分布参数使用。具体地，预定分布参数集合记录特征分布参数本身，以及分类类别与特征分布参数之间的对应关系。例如，对于前文中的示例E-1，预定分布参数集合Sets1记录“是张三”这一分类类别对应特征分布参数FD1、以及“不是张三”这一分类类别对应特征分布参数FD2。此外，预定分布参数集合本质上可以是数据库文件。

在本实施例中，在开始训练待训练模型之前，可以先获得预定分布参数集合，当需要确定某一训练样本对应的特征分布参数时，查询该预定分布参数集合，即在预定分布参数集合中查找该训练样本所属的分类类别对应的特征分布参数。具体地，可以由待训练模型发起查询请求以触发查询操作

并且，如前文描述，类别标签可以用于表征其对应的训练样本所属的分类类别。据此，可以基于训练样本的类别标签查询该预定分布参数集合，即在预定分布参数集合中查找该类别标签表征的分类类别相对应的特征分布参数。例如，对于前文中的训练样本TS1，其类别标签表征“是张三”这一分类类别，基于该类别标签在预定分布参数集合Sets1中查找“是张三”这一分类类别对应的特征分布参数，查找到的特征分布参数FD1即为训练样本TS1对应的特征分布参数。

需要说明的是，如果在训练待训练模型的过程中，同时运行已训练模型和待训练模型，当已训练模型的模型规模较大时，需要占用较多的硬件资源，尤其是GPU(GraphicProcessing Unit，图形处理器)显存，并且训练耗时较长。然而，本实施例中，在训练待训练模型的过程中，确定训练样本对应的特征分布参数时，无需运行已训练模型，使已训练模型进行前向传播实时输出第二样本特征，而只需查询预定分布参数集合即可，大大减少了硬件资源的占用，并减少了训练耗时。

在一个实施例中，获得前文中的预定分布参数集合的方式，可以包括如下步骤：将训练集中的各训练样本输入已训练模型；通过已训练模型，输出训练集中的各训练样本的第二样本特征；分别对训练集中、属于各分类类别的训练样本的第二样本特征进行统计，确定与各分类类别分别对应的各特征分布参数；存储所确定的与各分类类别分别对应的各特征分布参数，获得预定分布参数集合。

本实施例中，可以在开始训练待训练模型之前，先将训练待训练模型需要使用的各训练样本(即训练集中的各训练样本)输入已训练模型。继而，已训练模型分别对各训练样本进行特征获取处理，获得各训练样本分别对应的各第二样本特征，并将各第二样本特征输出。而后，可以通过计算机设备上运行的相应功能模块，分别对训练集中属于各分类类别的训练样本的第二样本特征进行统计，从而确定与各分类类别分别对应的各特征分布参数。再存储所确定的各特征分布参数，从而获得预定分布参数集合。

在一个实施例中，前文中的分别对训练集中、属于各分类类别的训练样本的第二样本特征进行统计，确定与各分类类别分别对应的各特征分布参数的步骤，可以包括如下步骤：分别确定各分类类别对应的样本特征均值，分类类别对应的样本特征均值是训练集中、属于该分类类别的各训练样本的第二样本特征的均值；分别确定各分类类别对应的样本特征协方差，分类类别对应的样本特征协方差是训练集中、属于该分类类别的各训练样本的第二样本特征的协方差；基于各分类类别对应的样本特征均值和样本特征协方差，确定与各分类类别分别对应的各特征分布参数。

样本特征均值，是训练集中属于该样本特征均值对应的分类类别的各训练样本的第二样本特征的均值。可以理解，均值可以用于表征一组数据的中心点所在，相应地，样本特征均值可以用于表征属于该样本特征均值对应的分类类别的各训练样本的第二样本特征的中心点所在。

样本特征协方差，是训练集中属于该样本特征均值对应的分类类别的各训练样本的第二样本特征的协方差。可以理解，协方差可以用于表征一组数据的离散程度。相应地，样本特征协方差可以用于表征属于该样本特征均值对应的分类类别的各训练样本的第二样本特征的离散程度。

在本实施例中，基于各分类类别对应的样本特征均值和样本特征协方差，确定与各分类类别分别对应的各特征分布参数。由此可知，对于任一分类类别，其对应的特征分布参数本质上均包括均值和协方差两个参数，亦即使用高斯分布描述属于该分类类别的各训练样本的第二样本特征的数据分布特点。

在一个实施例中，在前文中的基于各中心特征和各特征分布参数，获得当前组训练样本对应的综合损失参数的步骤之前，即步骤S208之前，还可以包括如下步骤：通过待训练模型，分别基于各第一样本特征，获得各训练样本的模型预测结果；分别基于各训练样本的模型预测结果和类别标签，确定各训练样本对应的第一损失分量，类别标签用于表征相应训练样本所属的分类类别。

在此情况下，前文中的基于各中心特征和各特征分布参数，获得当前组训练样本对应的综合损失参数的步骤，可以包括如下步骤：分别基于各中心特征和各特征分布参数，确定各训练样本对应的第二损失分量；基于各第一损失分量和各第二损失分量，获得当前组训练样本对应的综合损失参数。

其中，模型预测结果是待训练模型预测的训练样本所属的分类类别，由待训练模型自行基于训练样本进行预测获得。可以理解，模型预测结果与训练样本的类别标签一致，表明待训练模型预测正确，不一致表明待训练模型预测错误。

第一损失分量，可以用于表征其对应的训练样本的模型预测结果和类别标签之间的不一致程度。并且，各训练样本分别对应一个第一损失分量。具体地，对于任一训练样本，其对应的第一损失分量，可以基于该训练样本的模型预测结果和类别标签、以及第一损失函数进行确定。第一损失函数可以采用任何适用的损失函数，例如第一损失函数可以是Softmax损失函数。

在一个具体示例中，第一损失函数可以如下述公式所示。首先需要说明的是，待训练模型的全连接层的权重矩阵中，包括与各分类类别对应的列，例如，对于前文中的示例E-1，待训练模型的全连接层的权重矩阵中，包括与“是张三”这一分类类别对应的列、以及与“不是张三”这一分类类别对应的列。

其中，L_s-i表示第i个训练样本对应的第一损失分量，f_i表示第i个训练样本的第一样本特征，y(i)表示第i个训练样本的类别标签表征的分类类别，表示待训练模型的全连接层的权重矩阵中、与y(i)这一分类类别对应的列的矩阵倒置，表示全连接层的权重矩阵中第j列的矩阵倒置，n_c表示分类类别的总数目。

第二损失分量，可以用于表征其对应的训练样本所对应的中心特征、与该训练样本对应的特征分布参数之间的不一致程度。并且，各训练样本分别对应一个第二损失分量。具体地，对于任一训练样本，其对应的第二损失分量，可以基于该训练样本对应的中心特征、特征分布参数以及第二损失函数进行确定。第二损失函数可以采用任何适用的损失函数。

在一个具体示例中，第二损失函数可以如下述公式所示：

其中，L_f-i表示第i个训练样本对应的第二损失分量，n_d表示第i个训练样本的第一样本特征的特征维数，Σ_y(i)表示y(i)这一分类类别对应的特征分布参数中的协方差，C_y(i)表示第i个训练样本对应的中心特征，μ_y(i)表示y(i)这一分类类别对应的特征分布参数中的均值。

在本实施例中，对于任一训练样本，均获得其对应的第一损失分量和第二损失分量。继而，可以根据各训练样本的第一损失分量和第二损失分量，共同确定当前组训练样本对应的综合损失参数。

在一个实施例中，前文中的基于各第一损失分量和各第二损失分量，获得当前组训练样本对应的综合损失参数的步骤，可以包括如下步骤：基于各训练样本对应的第一损失分量进行加权平均运算，获得当前组训练样本对应的第一损失参数；基于各训练样本对应的第二损失分量进行加权平均运算，获得当前组训练样本对应的第二损失参数；基于第一损失参数和第二损失参数，获得当前组训练样本对应的综合损失参数。

在本实施例中，获得当前组训练样本中的各训练样本对应的第一损失分量和第二损失分量后，可以基于当前组训练样本中的各训练样本对应的第一损失分量进行加权平均运算，获得当前组训练样本对应的第一损失参数。以及，基于当前组训练样本中的各训练样本对应的第二损失分量进行加权平均运算，获得当前组训练样本对应的第二损失参数。

具体地，可以采用如下公式确定当前组训练样本对应的第一损失参数：

其中，L_s表示当前组训练样本对应的第一损失参数，n表示当前组训练样本中的训练样本的总数目，表示第i个训练样本对应的第一损失分量。

此外，可以采用如下公式确定当前组训练样本对应的第二损失参数：

其中，L_f表示当前组训练样本对应的第二损失参数，n表示当前组训练样本中的训练样本的总数目，表示第i个训练样本对应的第二损失分量。

在本实施例中，获得当前组训练样本对应的第一损失参数和第二损失参数后，可以基于该第一损失参数和第二损失参数共同确定当前组训练样本对应的综合损失参数。

在一个实施例中，前文中的基于第一损失参数和第二损失参数，获得当前组训练样本对应的综合损失参数的步骤，可以包括如下步骤：将第二损失参数和第一影响系数进行乘法运算，确定影响损失参数；基于第一损失参数和影响损失参数，获得当前组训练样本对应的综合损失参数。

在本实施例中，具体可以基于如下公式确定当前组训练样本对应的综合损失参数：L＝L_s+λ₁L_f。其中，L表示当前组训练样本对应的综合损失参数，L_s表示当前组训练样本对应的第一损失参数，L_f表示当前组训练样本对应的第二损失参数，λ₁表示第一影响系数，第一影响系数本质上是一个超参数，其用于控制第二损失参数在综合损失参数中的比例，第一影响系数越大，训练后获得的待训练模型的输出越逼近已训练模型的输出，亦即是说，待训练模型拟合已训练模型的程度越高。在一个具体示例中，λ₁的取值可以为0.001。

在一个实施例中，前文中的基于各第一损失分量和各第二损失分量，获得当前组训练样本对应的综合损失参数的步骤，可以包括如下步骤：分别基于各训练样本对应的第一损失分量和第二损失分量，确定各训练样本分别对应的综合损失分量；基于各综合损失分量进行加权平均运算，获得当前组训练样本对应的综合损失参数。

在本实施例中，获得当前组训练样本中的各训练样本对应的第一损失分量和第二损失分量后，可以基于各训练样本的第一损失分量和第二损失分量，确定各训练样本分别对应的综合损失分量。由此可见，各训练样本分别对应一个综合损失分量。进而，再基于各训练样本对应的综合损失分量进行加权平均运算，获得当前组训练样本对应的综合损失参数。

具体地，可以采用如下公式确定当前组训练样本对应的综合损失参数：其中，L表示当前组训练样本对应的综合损失参数，n表示当前组训练样本中的训练样本的总数目，L_i表示第i个训练样本对应的综合损失分量。

在一个实施例中，前文中的分别基于各训练样本对应的第一损失分量和第二损失分量，确定各训练样本对应的综合损失分量的步骤，可以包括如下步骤：将第二影响系数分别与各训练样本对应的第二损失分量进行乘法运算，确定各训练样本的影响损失分量；分别基于各训练样本对应的第一损失分量和影响损失分量，确定各训练样本对应的综合损失分量。

具体地，具体可以基于如下公式确定训练样本对应的综合损失分量：L_i＝L_s-i+λ₂L_f-i。其中，L_i表示第i个训练样本对应的综合损失分量，L_s-i表示第i个训练样本对应的第一损失分量，L_f-i表示第i个训练样本对应的第二损失分量，λ₂表示第二影响系数，与第一影响系数类似，第二影响系数本质上也是一个超参数，其用于控制第二损失分量在综合损失分量中的比例，第二影响系数越大，训练后获得的待训练模型的输出越逼近已训练模型的输出，亦即是说，待训练模型拟合已训练模型的程度越高。在一个具体示例中，λ₂的取值可以为0.001。

在一个实施例中，在前文中的基于综合损失参数，调整待训练模型的模型参数的步骤之后，即步骤S208之后，还可以包括如下步骤：当不满足训练停止条件时，基于训练集确定下一组训练样本；将下一组训练样本作为当前组训练样本，并返回读取当前组训练样本的步骤(即步骤S202)。

训练停止条件，是结束模型训练的条件。训练停止条件可以基于实际需求进行设定，例如可以是达到预设的迭代次数，也可以是调整模型参数后的待训练模型的分类性能指标达到预设指标。

需要说明的是，通常需要进行多次模型参数的调整才能够完成对待训练模型的训练。基于此，基于综合损失参数调整待训练模型的模型参数后，可以判断是否满足训练停止条件，若不满足，表明还需要继续训练，则可以基于训练集确定下一组训练样本，并将该下一组训练样本作为当前组训练样本，再执行一次本申请任一实施例提供的模型的训练方法(例如再执行一次步骤S202至步骤S208)；若满足，表明无需再继续训练了，则可以结束训练流程。

下一组训练样本，可以是训练集中位于当前组训练样本之后的一组训练样本。例如训练集Sett3划分为依次排列的五组训练样本(G1至G5)，在一次对待训练模型的模型参数进行调整的过程中，以G1为当前组训练样本，基于G1进行一系列处理调整了一次模型参数后，若不满足训练停止条件，则可以将位于G1之后的下一组训练样本G2作为当前组训练样本。类似地，在G2之后，若仍不满足训练停止条件，则可以将位于G2之后的下一组训练样本G3作为当前组训练样本。并且，在G5之后，若还是不满足训练停止条件，则可以将位于G2之后的下一组训练样本G1作为当前组训练样本。后续各次确定当前组训练样本的方式类似，此处不加赘述。

此外，满足训练停止条件时，还可以保存满足训练停止条件时对应的待训练模型(以下将满足训练停止条件时对应的待训练模型简称为目标模型)，后续需要使用该目标模型时即可直接获取并使用。或者，满足训练停止条件时，也可以仅保存满足训练停止条件时对应的待训练模型的模型参数(以下将满足训练停止条件时对应的待训练模型的模型参数简称为目标模型参数)，后续需要使用目标模型时，可以获取目标模型参数并将其导入相应模型框架，得到目标模型并使用。

在一个实施例中，如图3所示，提供了一种模型的训练方法。该方法具体可以包括如下步骤S302至S338。

S302，将训练集中的各训练样本输入已训练模型，训练集用以供训练待训练模型使用，已训练模型是已经训练完成的模型，且已训练模型的模型规模参数超过待训练模型的模型规模参数。

S304，通过已训练模型，对各训练样本进行特征获取处理，获得各训练样本的第二样本特征并输出。

S306，统计得到各分类类别对应的样本特征均值，分类类别对应的样本特征均值是训练集中、属于该分类类别的各训练样本的第二样本特征的均值。

S308，统计得到各分类类别对应的样本特征协方差，分类类别对应的样本特征协方差是训练集中、属于该分类类别的各训练样本的第二样本特征的协方差。

S310，基于各分类类别对应的样本特征均值和样本特征协方差，确定与各分类类别分别对应的各特征分布参数。

S312，存储所确定的与各分类类别分别对应的各特征分布参数，获得预定分布参数集合。

S314，将当前组训练样本中的各训练样本输入待训练模型，当前组训练样本基于训练集确定。

S316，通过待训练模型，对当前组训练样本中的各训练样本分别进行图像获取处理，获得各训练样本的第一样本特征。

S318，通过待训练模型，基于各训练样本所属的分类类别和各第一样本特征，获得各训练样本分别对应的中心特征。

S320，通过待训练模型，分别基于各训练样本的类别标签查询预定分布参数集合，获得各训练样本对应的特征分布参数，类别标签用于表征相应训练样本所属的分类类别。

S322，通过待训练模型，分别基于当前组训练样本中的各训练样本的第一样本特征，获得各训练样本的模型预测结果。

S324，通过待训练模型，分别基于当前组训练样本中的各训练样本的模型预测结果和类别标签，确定各训练样本对应的第一损失分量。

S326，通过待训练模型，分别基于当前组训练样本中的各训练样本对应的中心特征和特征分布参数，确定各训练样本对应的第二损失分量。

S328，通过待训练模型，基于当前组训练样本中的各训练样本对应的第一损失分量进行加权平均运算，获得当前组训练样本对应的第一损失参数。

S330，通过待训练模型，基于当前组训练样本中的各训练样本对应的第二损失分量进行加权平均运算，获得当前组训练样本对应的第二损失参数。

S332，通过待训练模型，基于第一损失参数和第二损失参数，获得当前组训练样本对应的综合损失参数。

S334，基于综合损失参数调整待训练模型的模型参数。

S336，判断是否满足训练停止条件，若不满足，则基于训练集确定下一组训练样本，并跳转至步骤S338；若满足，则结束训练流程(未图示)。

S338，基于训练集确定下一组训练样本，将下一组训练样本作为当前组训练样本，并跳转至步骤S314。

需要说明的是，对本实施例中的各技术特征的具体限定，可以与前文中对相应技术特征的限定相同，此处不加赘述。

此外，结合图4和图5所示，对于实现本申请提供的模型训练方法的计算机设备而言，该计算机设备可以涉及如下组件：训练集402、已训练模型404、第二样本特征集合406、统计模块408、预定分布参数集合410、以及待训练模型412。

其中，训练集402可以用于记录训练待训练模型412需要使用的训练样本；已训练模型404可以用于读取训练集402中的各训练样本，并输出各训练样本的第二样本特征；第二样本特征集合406可以用于记录已训练模型404输出的各第二样本特征；统计模块408是可运行的程序功能模块，其可以用于分别对训练集中属于各分类类别的训练样本的第二样本特征进行统计，确定与各分类类别分别对应的各特征分布参数；预定分布参数集合410可以用于记录统计获得的各特征分布参数；待训练模型412可以用于查询预定分布参数集合410，以获得相应训练样本对应的特征分布参数，以及用于执行图5中待训练模型412所在的虚线框中的各操作(此处不再展开赘述)，从而训练待训练模型412。

应当理解的是，虽然前文各实施例涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，各流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

需要说明的是，本申请各实施例提供的模型的训练方法可以应用于人脸识别。具体地，首先，针对具体的人脸识别任务，获取相应人脸图像训练集。继而，基于该人脸图像训练集中的各人脸图像样本、以及本申请任一实施例提供的模型的训练方法进行待训练模型的训练，训练完毕后，获得具备实现该人脸识别任务的人脸识别模型。而后，在实际应用中，人脸识别模型读取到待识别人脸图像时，即可输出对应于该待识别人脸图像的识别结果。

其中，人脸识别任务可以涉及1:1模式任务、1：N模式任务等。1:1模式又称身份验证模式，其本质上是对待识别人脸图像与人像数据库进行快速比对，得出是否匹配的识别结果，例如“刷脸”登机、“刷脸”验票、“刷脸”支付等。1：N模式是在海量的人像数据库中查找出待识别人脸图像，例如“刷脸”识别闯红灯的行人等。

以下对具体的人脸识别任务的实验结果进行说明，如图6所示，是在自建的3000类训练集上，采用本申请提供的模型的训练方法对待训练模型进行训练和采用传统方式对待训练模型进行训练，在两种情况下，模型分类的损失参数的变化曲线示意图。由图6可知，采用本申请提供的模型的训练方法对待训练模型进行训练的方式，其损失参数收敛得更快且最终收敛得更小。并且，如图7所示，是在自建的3000类测试集上，采用本申请提供的模型的训练方法训练得到的模型、以及采用传统方式训练得到的模型的Top1命中率的变化曲线示意图。由图7可知，相较于采用传统方式训练得到的模型，采用本申请提供的模型的训练方法训练得到的模型在测试集上表现出了更高的精度。

并且，下表1是实际业务数据集的信息，实际业务数据集中包含了1:1模式实验数据和1：N模式实验数据，其中，1:1模式实验对应人脸核身业务(即基于人脸图像核验身份)，1：N模式实验对应人脸识别业务。

表1

基于表1所示的实际业务数据集，采用本申请提供的模型的训练方法训练得到的模型、以及采用传统方式训练得到的模型分别进行上述1:1模式实验(人脸核身业务)，获得的测试结果如下表2所示。采用本申请提供的模型的训练方法训练得到的模型、以及采用传统方式训练得到的模型分别进行上述1:N模式实验(人脸识别业务)，获得的测试结果如下表3所示。

表2

表3

表2和表3中far和FAR(false acceptance rate)均表示错误接受率，Top1表示首次命中率。从表2和表3中的对比结果可知，不论是上述1:1模式实验还是1:N模式实验，在相同的错误接受率下，相较于采用传统方式训练得到的模型，采用本申请提供的模型的训练方法训练得到的模型的正确通过率有明显提高。

在一个实施例中，如图8所示，提供了一种模型的训练装置800，该装置可以包括如下模块802至808。

训练样本读取模块802，用于读取当前组训练样本，当前组训练样本基于训练集确定。

中心特征获取模块804，用于通过待训练模型，获得当前组训练样本中的各训练样本的第一样本特征，并基于各训练样本所属的分类类别和各第一样本特征，获得各训练样本分别对应的中心特征。

分布参数获取模块806，用于获得各训练样本分别对应的特征分布参数，训练样本对应的特征分布参数是对训练集中、属于该训练样本所属的分类类别的各训练样本的第二样本特征进行统计获得，训练样本的第二样本特征由已训练模型基于该训练样本输出。

模型参数调整模块808，用于基于各中心特征和各特征分布参数，获得当前组训练样本对应的综合损失参数，并基于综合损失参数调整待训练模型的模型参数。

在一个实施例中，前文中的分布参数获取模块806具体可以用于分别基于各训练样本的类别标签查询预定分布参数集合，获得各训练样本对应的特征分布参数；其中，类别标签用于表征相应训练样本所属的分类类别，预定分布参数集合包括与各分类类别分别对应的各特征分布参数。

在一个实施例中，前文中的模型的训练装置800，还可以包括如下模块：训练样本输入模块，用于将训练集中的各训练样本输入已训练模型；第二特征输出模块，用于通过已训练模型，输出训练集中的各训练样本的第二样本特征；分布参数确定模块，用于分别对训练集中、属于各分类类别的训练样本的第二样本特征进行统计，确定与各分类类别分别对应的各特征分布参数；分布参数集合获取模块，用于存储所确定的与各分类类别分别对应的各特征分布参数，获得预定分布参数集合。

在一个实施例中，前文中的分布参数确定模块可以包括如下单元：特征均值确定单元，用于分别确定各分类类别对应的样本特征均值，分类类别对应的样本特征均值是训练集中、属于该分类类别的各训练样本的第二样本特征的均值；特征协方差确定单元，用于分别确定各分类类别对应的样本特征协方差，分类类别对应的样本特征协方差是训练集中、属于该分类类别的各训练样本的第二样本特征的协方差；分布参数确定单元，用于基于各分类类别对应的样本特征均值和样本特征协方差，确定与各分类类别分别对应的各特征分布参数。

在一个实施例中，前文中的模型的训练装置800，还可以包括如下模块：预测结果获取模块，用于通过待训练模型，分别基于各第一样本特征，获得各训练样本的模型预测结果；第一损失分量确定模块，用于分别基于各训练样本的模型预测结果和类别标签，确定各训练样本对应的第一损失分量，类别标签用于表征相应训练样本所属的分类类别。在此情况下，模型参数调整模块808，可以包括如下单元：第二损失分量确定单元，分别基于各中心特征和各特征分布参数，确定各训练样本对应的第二损失分量；综合损失参数确定单元，用于基于各第一损失分量和各第二损失分量，获得当前组训练样本对应的综合损失参数。

在一个实施例中，前文中的综合损失参数确定单元，可以包括如下子单元：第一损失参数确定子单元，用于基于各训练样本对应的第一损失分量进行加权平均运算，获得当前组训练样本对应的第一损失参数；第二损失参数确定子单元，用于基于各训练样本对应的第二损失分量进行加权平均运算，获得当前组训练样本对应的第二损失参数；第一综合参数确定子单元，用于基于第一损失参数和第二损失参数，获得当前组训练样本对应的综合损失参数。

在一个实施例中，前文中的第一综合参数确定子单元具体可以用于将第二损失参数和第一影响系数进行乘法运算，确定影响损失参数；并基于第一损失参数和影响损失参数，获得当前组训练样本对应的综合损失参数。

在一个实施例中，前文中的综合损失参数确定单元，可以包括如下子单元：合损失分量确定子单元，用于分别基于各训练样本对应的第一损失分量和第二损失分量，确定各训练样本分别对应的综合损失分量；第二综合参数确定子单元，用于基于各综合损失分量进行加权平均运算，获得当前组训练样本对应的综合损失参数。

在一个实施例中，前文中的第二综合参数确定子单元具体可以用于将第二影响系数分别与各训练样本对应的第二损失分量进行乘法运算，确定各训练样本的影响损失分量；并分别基于各训练样本对应的第一损失分量和影响损失分量，确定各训练样本对应的综合损失分量。

在一个实施例中，前文中的中心特征获取模块804具体可以用于：依次对各训练样本，确定该训练样本所属的分类类别对应的当前中心特征，基于该训练样本的第一样本特征更新当前中心特征，获得该训练样本所属的分类类别对应的更新后中心特征，该训练样本对应的中心特征包括更新后中心特征。

在一个实施例中，前文中的模型的训练装置800，还可以包括如下模块：

下一组训练样本确定模块，用于当不满足训练停止条件时，基于训练集确定下一组训练样本；

返回模块，用于将下一组训练样本作为当前组训练样本，并调用训练样本读取模块202，以返回读取当前组训练样本的步骤。

在一个实施例中，训练样本包括人脸图像样本，已训练模型的规模参数超过待训练模型的规模参数，规模参数包括模型的深度。

需要说明的是，关于上述模型的训练装置800涉及的技术特征的具体限定，可参见前文中对于图像识别方法中涉及的对应技术特征的限定，在此不再赘述。此外，上述模型的训练装置800中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可硬件形式内嵌于或独立于计算机设备中的处理器中，也可以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现本申请任一实施例提供的模型的训练方法中的步骤。

在一个具体示例中，该计算机设备可以是图1中示出的服务器120，其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该处理器用于提供计算和控制能力。该存储器包括非易失性存储介质和内存储器，该非易失性存储介质存储有操作系统、计算机程序和数据库，该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该数据库用于存储特征分布参数。该网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种模型的训练方法。

在另一个具体示例中，该计算机设备可以是图1中示出的用户终端110，其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该处理器用于提供计算和控制能力。该存储器包括非易失性存储介质和内存储器，该非易失性存储介质存储有操作系统和计算机程序，该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境，该计算机程序被处理器执行时以实现一种模型的训练方法。该网络接口用于与外部的终端通过网络连接通信。该显示屏可以是液晶显示屏或者电子墨水显示屏。该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图9和图10中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，本申请提供的模型的训练装置可以实现为一种计算机程序的形式，计算机程序可在如图9或10所示的计算机设备上运行。计算机设备的存储器中可存储组成该模型的训练装置的各个程序模块，比如，图8所示的训练样本读取模块802、中心特征获取模块804、分布参数获取模块806、以及模型参数调整模块808。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的模型的训练方法中的步骤。例如，图8或9所示的计算机设备，可以通过如图7所示的模型的训练装置800中的训练样本读取模块802执行步骤S202、通过中心特征获取模块804执行步骤S204、通过分布参数获取模块806执行步骤S206、通过模型参数调整模块808执行步骤S208等等。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

据此，在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现本申请任一实施例提供的模型的训练方法。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种模型的训练方法，其特征在于，包括：

通过待训练模型，获得所述当前组训练样本中的各训练样本的第一样本特征，并基于各所述训练样本所属的分类类别和各所述第一样本特征，获得与各所述训练样本分别对应的中心特征；

2.根据权利要求1所述的方法，其特征在于，所述获得各所述训练样本分别对应的特征分布参数，包括：

分别基于各所述训练样本的类别标签查询预定分布参数集合，获得各所述训练样本分别对应的特征分布参数；

其中，所述类别标签用于表征相应训练样本所属的分类类别，所述预定分布参数集合包括与各分类类别分别对应的各特征分布参数。

3.根据权利要求2所述的方法，其特征在于，获得所述预定分布参数集合的方式，包括：

将所述训练集中的各训练样本输入所述已训练模型；

通过所述已训练模型，输出所述训练集中的各训练样本的第二样本特征；

分别对训练集中、属于各所述分类类别的训练样本的第二样本特征进行统计，确定与各所述分类类别分别对应的各特征分布参数；

存储所确定的与各所述分类类别分别对应的各特征分布参数，获得所述预定分布参数集合。

4.根据权利要求3所述的方法，其特征在于，所述分别对训练集中、属于各所述分类类别的训练样本的第二样本特征进行统计，确定与各所述分类类别分别对应的各特征分布参数，包括：

分别确定各分类类别对应的样本特征均值，分类类别对应的样本特征均值是所述训练集中、属于该分类类别的各训练样本的第二样本特征的均值；

分别确定各分类类别对应的样本特征协方差，分类类别对应的样本特征协方差是所述训练集中、属于该分类类别的各训练样本的第二样本特征的协方差；

基于各所述分类类别对应的样本特征均值和样本特征协方差，确定与各所述分类类别分别对应的各特征分布参数。

5.根据权利要求1所述的方法，其特征在于，在基于各所述中心特征和各所述特征分布参数，获得所述当前组训练样本对应的综合损失参数之前，还包括：

通过所述待训练模型，分别基于各所述第一样本特征，获得各所述训练样本的模型预测结果；

分别基于各所述训练样本的模型预测结果和类别标签，确定各所述训练样本对应的第一损失分量，所述类别标签用于表征相应训练样本所属的分类类别；

所述基于各所述中心特征和各所述特征分布参数，获得所述当前组训练样本对应的综合损失参数，包括：

分别基于各所述中心特征和各所述特征分布参数，确定各所述训练样本对应的第二损失分量；

基于各所述第一损失分量和各所述第二损失分量，获得所述当前组训练样本对应的综合损失参数。

6.根据权利要求5所述的方法，其特征在于，所述基于各所述第一损失分量和各所述第二损失分量，获得所述当前组训练样本对应的综合损失参数，包括：

基于各训练样本对应的第一损失分量进行加权平均运算，获得所述当前组训练样本对应的第一损失参数；

基于各训练样本对应的第二损失分量进行加权平均运算，获得所述当前组训练样本对应的第二损失参数；

基于所述第一损失参数和所述第二损失参数，获得所述当前组训练样本对应的综合损失参数。

7.根据权利要求6所述的方法，其特征在于，基于所述第一损失参数和所述第二损失参数，获得所述当前组训练样本对应的综合损失参数，包括：

将所述第二损失参数和第一影响系数进行乘法运算，确定影响损失参数；

基于所述第一损失参数和所述影响损失参数，获得所述当前组训练样本对应的综合损失参数。

8.根据权利要求5所述的方法，其特征在于，所述基于各所述第一损失分量和各所述第二损失分量，获得所述当前组训练样本对应的综合损失参数，包括：

分别基于各所述训练样本对应的第一损失分量和第二损失分量，确定各所述训练样本分别对应的综合损失分量；

基于各所述综合损失分量进行加权平均运算，获得所述当前组训练样本对应的综合损失参数。

9.根据权利要求8所述的方法，其特征在于，所述分别基于各所述训练样本对应的第一损失分量和第二损失分量，确定各所述训练样本对应的综合损失分量，包括：

将第二影响系数分别与各所述训练样本对应的第二损失分量进行乘法运算，确定各所述训练样本的影响损失分量；

分别基于各所述训练样本对应的第一损失分量和影响损失分量，确定各所述训练样本对应的综合损失分量。

10.根据权利要求1所述的方法，其特征在于，所述分别基于各所述训练样本所属的分类类别和所述第一样本特征，获得各所述训练样本对应的中心特征，包括：

依次对各所述训练样本，确定该训练样本所属的分类类别对应的当前中心特征，并基于该训练样本的第一样本特征更新所述当前中心特征，获得该训练样本所属的分类类别对应的更新后中心特征，该训练样本对应的中心特征包括所述更新后中心特征。

11.根据权利要求1所述的方法，其特征在于，在所述基于所述综合损失参数，调整所述待训练模型的模型参数之后，还包括：

当不满足训练停止条件时，基于所述训练集确定下一组训练样本；

将所述下一组训练样本作为所述当前组训练样本，并返回读取当前组训练样本的步骤。

12.根据权利要求1至11中的任一项所述的方法，其特征在于：

所述训练样本包括人脸图像样本；

所述已训练模型的规模参数超过所述待训练模型的规模参数，所述规模参数包括模型的深度。

13.一种模型的训练装置，其特征在于，包括：

14.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至12中任一项所述的方法的步骤。

15.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至12中任一项所述方法的步骤。