CN108734193A

CN108734193A - 一种深度学习模型的训练方法及装置

Info

Publication number: CN108734193A
Application number: CN201810258256.0A
Authority: CN
Inventors: 李�诚; 周晓; 朱才志
Original assignee: Hefei Lintu Information Technology Co ltd
Current assignee: Hefei Lintu Information Technology Co ltd
Priority date: 2018-03-27
Filing date: 2018-03-27
Publication date: 2018-11-02

Abstract

本发明实施例提供了一种深度学习模型的训练方法及装置，方法为：首先训练得到中间深度学习模型；计算训练样本集中各个样本的特征向量以及计算中心点距离目标函数的中间参数的初始值；将中心点距离目标函数添加到中间深度学习模型中并加载中间参数的初始值，得到目标深度学习模型；利用当前目标深度学习模型，计算当前批次数据中各个样本的特征向量，并更新中间参数的参数值；计算中心点距离目标函数的函数值和分类目标函数的函数值，并判断是否符合结束训练的条件；如果否，调整当前目标深度学习模型的参数，导入下一批次数据并进行模型训练；如果是，结束训练。应用本发明实施例提供的方案可以提升深度学习模型的分类准确率。

Description

一种深度学习模型的训练方法及装置

技术领域

本发明涉及机器学习技术领域，特别是涉及一种深度学习模型的训练方法及装置。

背景技术

包含分类目标函数的深度学习模型，即带有分类任务的深度学习模型(深度学习分类模型)，其通用架构是：首先采用若干组“卷积-非线性激励-池化”模块提取出数据分布的特征，然后采用“全连接”或者“1×1卷积”将特征缩减到指定数量个类别，最后通过softmax等分类目标函数实现类别分值的推断。而将包含分类目标函数的深度学习模型与中心点距离目标函数相结合，能够使得深度学习模型学习到的数据分布更加紧凑。

对于包含分类目标函数的深度学习模型，根据每一类别所包含的各个样本的特征向量可以计算得到该类别的中心点，该类别中各个样本到该类别的中心点的距离为中心点距离。在深度学习模型的训练过程中，可以通过减小中心点距离，来提升深度学习模型的分类准确率。

目前，在深度学习模型的训练过程中，均采用批次数据训练的形式对模型参数进行更新，但是现有方法是采用批次数据对中心点距离目标函数的函数值进行近似的方式来确定各个类别的中心点距离，也就是说，在训练过程中计算出的中心点距离不准确，从而导致深度学习模型的分类准确率不高。

发明内容

本发明实施例的目的在于提供一种深度学习模型的训练方法、装置、电子设备及计算机可读存储介质，以提升深度学习模型的分类准确率。具体技术方案如下：

第一方面，本发明实施例提供了一种深度学习模型的训练方法，所述方法包括：

利用训练样本集中的各个样本，对预先构建的初始深度学习模型进行训练，得到中间深度学习模型；其中，所述初始深度学习模型为：加载有分类目标函数的深度学习模型；

利用所述中间深度学习模型，计算所述训练样本集中各个样本的特征向量，并根据所述训练样本集中各个样本的特征向量，计算中心点距离目标函数的中间参数的初始值；

将所述中心点距离目标函数添加到所述中间深度学习模型中并加载所述中间参数的初始值，得到目标深度学习模型；

导入所述训练样本集中的预设数量个样本作为批次数据；

利用当前目标深度学习模型，计算当前批次数据中各个样本的特征向量，并根据当前批次数据中各个样本的特征向量，更新所述中间参数的参数值；

基于当前批次数据中各个样本的特征向量，计算所述中心点距离目标函数的函数值和所述分类目标函数的函数值，并判断计算得到的中心点距离目标函数的函数值是否收敛到第一预定区间，且计算得到的分类目标函数的函数值是否收敛到第二预定区间；

如果否，利用所述中心点距离目标函数的反向传播梯度和所述分类目标函数的反向传播梯度，调整当前目标深度学习模型的参数，并返回执行所述导入所述训练样本集中的预设数量个样本作为批次数据的步骤；

如果是，结束对所述当前目标深度学习模型的训练。

可选的，所述中心点距离目标函数的中间参数包括：各个类别的中心点、每一类别中的各个样本与该类别的中心点的偏差和、每一类别中的各个样本与该类别的中心点的距离的平方和；

所述根据所述训练样本集中各个样本的特征向量，计算中心点距离目标函数的中间参数的初始值的步骤，包括：

根据以下公式，计算各个类别的中心点：

其中，c_j表示类别j的中心点，x_i表示利用所述中间深度学习模型计算的所述训练样本集中第i个样本的特征向量，y_i表示第i个样本的类别标签，N表示所述训练样本集中样本的数量，n_j表示在所述训练样本集中类别j所包含的样本的数量，σ(y_i,j)是类别指示函数，且

根据以下公式，计算每一类别中的各个样本与该类别的中心点的偏差和：

其中，β_j表示类别j中各个样本与该类别的中心点的偏差和，c_yi表示第i个样本所属类别的中心点；

根据以下公式，计算每一类别中的各个样本与该类别的中心点的距离的平方和：

其中，δ_j表示类别j中各个样本与该类别的中心点的距离的平方和。

可选的，所述根据当前批次数据中各个样本的特征向量，更新所述中间参数的参数值的步骤，包括：

根据以下公式，更新各个类别的中心点：

其中，c_j、分别表示更新前、后的类别j的中心点，表示利用当前目标深度学习模型计算的所述训练样本集中第i个样本的特征向量，p表示所述当前批次数据中的样本；

根据以下公式，更新每一类别中的各个样本与该类别的中心点的偏差和：

其中，β_j、分别表示更新前、后的类别j中的各个样本与该类别的中心点的偏差和，c_yi、分别表示更新前、后第i个样本所属类别的中心点；

根据以下公式，更新每一类别中的各个样本与该类别的中心点的距离的平方和：

其中，δ_j、分别表示更新前、后的类别j中的各个样本与该类别的中心点的距离的平方和，Δc_yi表示第i个样本所属类别的中心点的偏移量，且Δ^Tc_j表示Δc_j的转置。

可选的，所述中心点距离目标函数为：

其中，K表示所述训练样本集中样本的类别数量，δ_j表示类别j中各个样本与该类别的中心点的距离的平方和。

可选的，所述中心点距离目标函数的反向传播梯度为：

其中，表示所述中心点距离目标函数的反向传播梯度，n_yi表示在所述训练样本集中第i个样本所属类别所包含的样本的数量，表示利用所述当前目标深度学习模型计算的所述训练样本集中第i个样本的特征向量，表示更新后第i个样本所属类别的中心点，表示更新后第i个样本所属类别中的各个样本与该类别的中心点的偏差和，N表示所述训练样本集中样本的数量。

第二方面，本发明实施例提供了一种深度学习模型的训练装置，所述装置包括：

训练模块，用于利用训练样本集中的各个样本，对预先构建的初始深度学习模型进行训练，得到中间深度学习模型；其中，所述初始深度学习模型为：加载有分类目标函数的深度学习模型；

计算模块，用于利用所述中间深度学习模型，计算所述训练样本集中各个样本的特征向量，并根据所述训练样本集中各个样本的特征向量，计算中心点距离目标函数的中间参数的初始值；

加载模块，用于将所述中心点距离目标函数添加到所述中间深度学习模型中并加载所述中间参数的初始值，得到目标深度学习模型；

导入模块，用于导入所述训练样本集中的预设数量个样本作为批次数据；

更新模块，用于利用当前目标深度学习模型，计算当前批次数据中各个样本的特征向量，并根据当前批次数据中各个样本的特征向量，更新所述中间参数的参数值；

处理模块，用于基于当前批次数据中各个样本的特征向量，计算所述中心点距离目标函数的函数值和所述分类目标函数的函数值，并判断计算得到的中心点距离目标函数的函数值是否收敛到第一预定区间，且计算得到的分类目标函数的函数值是否收敛到第二预定区间；如果是，结束对所述当前目标深度学习模型的训练；如果否，利用所述中心点距离目标函数的反向传播梯度和所述分类目标函数的反向传播梯度，调整当前目标深度学习模型的参数，并触发所述导入模块。

所述计算模块，具体用于：

根据以下公式，计算各个类别的中心点：

可选的，所述更新模块，具体用于：

根据以下公式，更新各个类别的中心点：

可选的，所述中心点距离目标函数为：

可选的，所述中心点距离目标函数的反向传播梯度为：

第三方面，本发明实施例提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述任一所述的深度学习模型的训练方法的方法步骤。

第四方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一所述的深度学习模型的训练方法的方法步骤。

本发明实施例提供的方案，首先利用训练样本集中的各个样本对预先加载分类目标函数的深度学习模型进行训练，进而计算训练样本集中各个样本的特征数据并以特征数据来计算中心点距离目标函数的中间参数的初始值，然后将中心点距离目标函数添加到深度学习模型中并加载中间参数的初始值，从而得到了目标深度学习模型，然后采用批次数据对目标深度学习模型进行训练，并在训练过程中更新中心点距离目标函数的中间参数，以及调整目标深度学习模型的模型参数。可见，利用批次数据对目标深度学习模型进行训练，可以在批次训练过程中，完成全样本集合的各个类别的中心点和中心点距离的更新，得到各个类别的准确的中心点距离并且在训练过程中逐渐减小，从而达到提升深度学习模型的分类准确率的效果。当然，实施本发明的任一产品或方法必不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种深度学习模型的训练方法的流程示意图；

图2为本发明实施例提供的一种深度学习模型的训练装置的结构示意图；

图3为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为提升深度学习模型的分类准确率，本发明实施例提供了一种深度学习模型的训练方法、装置、电子设备及计算机可读存储介质。

下面首先对本发明实施例提供的一种深度学习模型的训练方法进行介绍。

需要说明的是，本发明实施例所提供的一种深度学习模型的训练方法的执行主体可以为一种深度学习模型的训练装置，其中，该深度学习模型的训练深度学习模型的训练装置运行于电子设备中。在具体应用中，该电子设备可以为：终端设备或服务器，这都是合理的。

本发明实施例所提供的深度学习模型的训练方法，能够适用于任何带有分类任务的模型，本发明实施例对深度学习模型的结构不做限定。

参见图1所示，本发明实施例提供的一种深度学习模型的训练方法，包括如下步骤：

S101，利用训练样本集中的各个样本，对预先构建的初始深度学习模型进行训练，得到中间深度学习模型。

其中，初始深度学习模型为：加载有分类目标函数的深度学习模型。

本发明实施例要训练的深度学习模型为：带有分类任务的深度学习模型，因此需要在深度学习模型的通用框架中加载分类目标函数，以实现深度学习模型的分类任务，其中，分类目标函数可以为softmax函数，也可以为其他类型的函数。

在训练之前，可以预先对训练样本集中的各个样本进行全局编号，全局编号是指在训练样本集中各个样本具备整数类型的全局唯一编号。这样，在后续训练过程中，对中心点距离目标函数的中间参数进行更新时，能够依据全局编号，对批次数据中的样本的特征向量进行快速索引。

具体而言，用于分类任务的训练样本集中的各个样本通常有一个类别标签，本发明实施例可以将每个样本对应的全局编号添加到该样本的类别标签上。例如，训练样本集包括n个样本且这n个样本分属于k个类别，则这n个样本的类别标签分别可以为：(d₁，1)、(d₂，1)…(d_n，k)，其中，类别标签中的第一个参数表示样本对应的数据，第二个参数表示样本所属的类别；添加全局编号后，这n个样本的类别标签可以为如下形式：(d₁，1，1)、(d₂，2，1)…(d_n，n，k)，其中，类别标签中的第一个参数表示样本对应的数据，第二个参数表示样本的全局编号，第三个参数表示样本所属的类别。这样，在后续的训练过程中，可通过全局编号迅速索引到样本。

在目前流行的深度学习框架中，深度学习模型可以直接采用finetune方式进行训练，或者先随机初始化各层的可学习参数然后再进行训练。而本发明实施例需要一个稳定的初始化深度学习模型对样本的中心点分布特征进行初始化，所以本发明实施例中不采用先随机初始化各层的可学习参数然后再进行训练的方式，而是使深度学习模型首先只加载分类目标函数而不加载中心点距离目标函数，构建出初始深度模型后进行若干次训练，训练出模型的初始化权重，也就是得到中间深度学习模型，然后再对中间深度学习模型采用finetune方式进行训练。

其中，利用训练样本集中的各个样本对初始深度学习模型进行训练的过程，属于现有技术，在此不做赘述。

S102，利用中间深度学习模型，计算训练样本集中各个样本的特征向量，并根据训练样本集中各个样本的特征向量，计算中心点距离目标函数的中间参数的初始值。

目前深度学习框架中，均可采用推断机制来获取样本的低维的特征向量，在本发明实施例中，通过利用中间深度学习模型对样本进行特征提取，可以得到样本的特征向量。

假设类别标签为(d_i，i，y_i)的样本经过中间深度学习模型的若干层传播后得到特征向量x_i，则可以将该样本的特征向量以(d_i，i，y_i，x_i)的形式进行保存。

在一种实现方式中，中心点距离目标函数可以为：其中，K表示训练样本集中样本的类别数量，δ_j表示类别j中各个样本与该类别的中心点的距离的平方和。

对于上述中心点距离目标函数，其中间参数可以包括四个参数，具体为：各个类别的中心点、每一类别中的各个样本与该类别的中心点的偏差和、每一类别中的各个样本与该类别的中心点的距离的平方和。

对于以上四个参数，上述根据训练样本集中各个样本的特征向量，计算中心点距离目标函数的中间参数的初始值的步骤，可以包括：

根据以下公式，计算各个类别的中心点：

其中，c_j表示类别j的中心点，x_i表示利用中间深度学习模型计算的训练样本集中第i个样本的特征向量，y_i表示第i个样本的类别标签，N表示训练样本集中样本的数量，n_j表示在训练样本集中类别j所包含的样本的数量，σ(y_i,j)是类别指示函数，且

在计算得到各个中间参数后，需要对各个中间参数进行保存，以便后续训练过程中对各个中间参数进行更新时使用。

S103，将中心点距离目标函数添加到中间深度学习模型中并加载中间参数的初始值，得到目标深度学习模型。

可以理解的是，执行上述步骤S101所得到的中间深度学习模型具有初始化的模型参数，执行步骤S102后，可以得到中心点距离目标函数的初始化参数。因此，将中心点距离目标函数添加到中间深度学习模型中并加载中间参数的初始值，可以得到所有模型参数均初始化了的目标深度学习模型。

S104，确定训练样本集中的预设数量个样本作为批次数据。

S105，利用当前目标深度学习模型，计算当前批次数据中各个样本的特征向量，并根据当前批次数据中各个样本的特征向量，更新中间参数的参数值。

其中，计算当前批次数据中各个样本的特征向量与步骤S102中计算训练样本集中各个样本的特征向量的方法类似，在此不做赘述。

在步骤S102的相关描述中，中间参数可以为：各个类别的中心点、每一类别中的各个样本与该类别的中心点的偏差和、每一类别中的各个样本与该类别的中心点的距离的平方和。在这种情况下，上述根据当前批次数据中各个样本的特征向量，更新中间参数的参数值的步骤，可以包括：

根据以下公式，更新各个类别的中心点：

其中，c_j、分别表示更新前、后的类别j的中心点，表示利用当前目标深度学习模型计算的训练样本集中第i个样本的特征向量，p表示当前批次数据中的样本；

由上述公式可以看出，中间参数之间具有数值依赖关系，因此，需要按照顺序对各个中间参数进行更新，即

S106，基于当前批次数据中各个样本的特征向量，计算中心点距离目标函数的函数值和分类目标函数的函数值，并判断计算得到的中心点距离目标函数的函数值是否收敛到第一预定区间，且计算得到的分类目标函数的函数值是否收敛到第二预定区间；如果否，执行S107，如果是，执行S108。

S107，利用中心点距离目标函数的反向传播梯度和分类目标函数的反向传播梯度，调整当前目标深度学习模型的参数，并返回执行步骤S104。

S108，结束对当前目标深度学习模型的训练。

其中，中心点距离目标函数可以为：其中，K表示训练样本集中样本的类别数量，δ_j表示类别j中各个样本与该类别的中心点的距离的平方和。因此，可以根据步骤S105计算得到的δ_j值计算中心点距离目标函数的函数值。

另外，可以基于当前批次数据中各个样本的特征向量来计算分类目标函数的函数值，具体的，计算分类目标函数的函数值属于现有技术，在此不做赘述。

本领域技术人员可以理解的是，当计算得到的中心点距离目标函数的函数值收敛到第一预定区间，且计算得到的分类目标函数的函数值收敛到第二预定区间时，表示当前目标深度学习模型的模型参数均已调整合适，因此，可以结束对当前目标深度学习模型的训练。需要说明的是，由于结束训练后得到的目标深度学习模型，与不使用中心点距离目标函数的模型没有区别，因此目标深度学习模型在部署完成后可以直接使用。

否则，表示当前目标深度学习模型的模型参数仍未调整合适，需要继续进行训练，此时，需要利用中心点距离目标函数的反向传播梯度和分类目标函数的反向传播梯度，调整当前目标深度学习模型的参数，然后再确定下一批次数据对当前目标深度学习模型进行训练。

具体的，当中心点距离目标函数为：时，中心点距离目标函数的反向传播梯度可以为：其中，表示中心点距离目标函数的反向传播梯度，n_yi表示在训练样本集中第i个样本所属类别所包含的样本的数量，表示利用当前目标深度学习模型计算的训练样本集中第i个样本的特征向量，表示更新后的第i个样本所属类别的中心点，表示更新后的第i个样本所属类别中的各个样本与该类别的中心点的偏差和，N表示训练样本集中样本的数量。

另外，分类目标函数的反向传播梯度，以及利用中心点距离目标函数的反向传播梯度和分类目标函数的反向传播梯度，调整当前目标深度学习模型的参数的方法可以参考现有技术，在此不做赘述。

应用本发明实施例提供的方案，首先利用训练样本集中的各个样本对预先加载分类目标函数的深度学习模型进行训练，进而计算训练样本集中各个样本的特征数据并以特征数据来计算中心点距离目标函数的中间参数的初始值，然后将中心点距离目标函数添加到深度学习模型中并加载中间参数的初始值，从而得到了目标深度学习模型，然后采用批次数据对目标深度学习模型进行训练，并在训练过程中更新中心点距离目标函数的中间参数，以及调整目标深度学习模型的模型参数。可见，利用批次数据对目标深度学习模型进行训练，可以在批次训练过程中，完成全样本集合的各个类别的中心点和中心点距离的更新，得到各个类别的准确的中心点距离并且在训练过程中逐渐减小，从而达到提升深度学习模型的分类准确率的效果。

下面举例说明本发明实施例提供的方案的计算量小。在应用本发明实施例提供的方案时，可采用如下链表形式以全局编号的顺序记录每个样本的特征向量：

样本的特征向量：list<vector<float>>sample_feature，存储所有样本的特征向量时的内存需求为：N×M×32bit，其中N为样本的数量、M为特征向量的维数；

同时，按照类别顺序存储每一类别的如下参数：

类别的中心点：list<float>class_center，存储所有类别的中心点时的内存需求为：C×M×32bit，其中C为类别的数量；

类别中的各个样本与该类别的中心点的偏差和：list<float>class_center_deviation_sum，存储所有类别对应的中心点的偏差和时的内存需求为：C×M×32bit；

类别中的各个样本与该类别的中心点的距离的平方和：list<float>class_center_dis_square_sum，存储所有类别对应的中心点的距离的平方和时的内存需求为：C×32bit；

以存储10个类别，100万个样本和512维度的特征向量为例，存储所有数据的内存需求为15.25G左右。这样，在计算内存充裕情况下，可直接将所有数据加载到内存中进行读写，在内存不足情况下，可将所有数据存储在数据库中进行读写。

与上述的深度学习模型的训练方法相对应，本发明实施例提供了一种深度学习模型的训练装置。与图1所示的方法实施例相对应，图2为本发明实施例提供的一种深度学习模型的训练装置的结构示意图，该装置可以包括：

训练模块201，用于利用训练样本集中的各个样本，对预先构建的初始深度学习模型进行训练，得到中间深度学习模型；其中，所述初始深度学习模型为：加载有分类目标函数的深度学习模型；

计算模块202，用于利用所述中间深度学习模型，计算所述训练样本集中各个样本的特征向量，并根据所述训练样本集中各个样本的特征向量，计算中心点距离目标函数的中间参数的初始值；

加载模块203，用于将所述中心点距离目标函数添加到所述中间深度学习模型中并加载所述中间参数的初始值，得到目标深度学习模型；

导入模块204，用于导入所述训练样本集中的预设数量个样本作为批次数据；

更新模块205，用于利用当前目标深度学习模型，计算当前批次数据中各个样本的特征向量，并根据当前批次数据中各个样本的特征向量，更新所述中间参数的参数值；

处理模块206，用于基于当前批次数据中各个样本的特征向量，计算所述中心点距离目标函数的函数值和所述分类目标函数的函数值，并判断计算得到的中心点距离目标函数的函数值是否收敛到第一预定区间，且计算得到的分类目标函数的函数值是否收敛到第二预定区间；如果是，结束对所述当前目标深度学习模型的训练；如果否，利用所述中心点距离目标函数的反向传播梯度和所述分类目标函数的反向传播梯度，调整当前目标深度学习模型的参数，并触发所述导入模块204。

可选的，所述中心点距离目标函数的中间参数可以包括：各个类别的中心点、每一类别中的各个样本与该类别的中心点的偏差和、每一类别中的各个样本与该类别的中心点的距离的平方和；

相应的，所述计算模块202，具体可以用于：

根据以下公式，计算各个类别的中心点：

可选的，所述更新模块205，具体可以用于：

根据以下公式，更新各个类别的中心点：

可选的，所述中心点距离目标函数可以为：

可选的，所述中心点距离目标函数的反向传播梯度可以为：

其中，表示所述中心点距离目标函数的反向传播梯度，n_yi表示在所述训练样本集中第i个样本所属类别所包含的样本的数量，表示利用所述当前目标深度学习模型计算的所述训练样本集中第i个样本的特征向量，表示更新后的第i个样本所属类别的中心点，表示更新后的第i个样本所属类别中的各个样本与该类别的中心点的偏差和，N表示所述训练样本集中样本的数量。

本发明实施例还提供了一种电子设备，如图3所示，包括处理器301、通信接口302、存储器303和通信总线304，其中，处理器301，通信接口302，存储器303通过通信总线304完成相互间的通信，

存储器303，用于存放计算机程序；

处理器301，用于执行存储器303上所存放的程序时，实现如下步骤：

导入所述训练样本集中的预设数量个样本作为批次数据；

计算所述中心点距离目标函数的函数值和所述分类目标函数的函数值，并判断计算得到的中心点距离目标函数的函数值是否收敛到第一预定区间，且计算得到的分类目标函数的函数值是否收敛到第二预定区间；

如果是，结束对所述当前目标深度学习模型的训练。

关于该方法各个步骤的具体实现以及相关解释内容可以参见上述图1所示的方法实施例，在此不做赘述。

另外，处理器301执行存储器303上所存放的程序而实现的深度学习模型的训练方法的其他实现方式，与前述方法实施例部分所提及的实现方式相同，这里也不再赘述。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的深度学习模型的训练方法。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、电子设备以及计算机可读存储介质实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种深度学习模型的训练方法，其特征在于，所述方法包括：

导入所述训练样本集中的预设数量个样本作为批次数据；

如果是，结束对所述当前目标深度学习模型的训练。

2.根据权利要求1所述的方法，其特征在于，所述中心点距离目标函数的中间参数包括：各个类别的中心点、每一类别中的各个样本与该类别的中心点的偏差和、每一类别中的各个样本与该类别的中心点的距离的平方和；

根据以下公式，计算各个类别的中心点：

其中，β_j表示类别j中各个样本与该类别的中心点的偏差和，表示第i个样本所属类别的中心点；

3.根据权利要求2所述的方法，其特征在于，所述根据当前批次数据中各个样本的特征向量，更新所述中间参数的参数值的步骤，包括：

根据以下公式，更新各个类别的中心点：

其中，β_j、分别表示更新前、后的类别j中的各个样本与该类别的中心点的偏差和，分别表示更新前、后第i个样本所属类别的中心点；

其中，δ_j、分别表示更新前、后的类别j中的各个样本与该类别的中心点的距离的平方和，表示第i个样本所属类别的中心点的偏移量，且Δ^Tc_j表示Δc_j的转置。

4.根据权利要求1所述的方法，其特征在于，所述中心点距离目标函数为：

5.根据权利要求4所述的方法，其特征在于，所述中心点距离目标函数的反向传播梯度为：

其中，表示所述中心点距离目标函数的反向传播梯度，表示在所述训练样本集中第i个样本所属类别所包含的样本的数量，表示利用所述当前目标深度学习模型计算的所述训练样本集中第i个样本的特征向量，表示更新后第i个样本所属类别的中心点，表示更新后第i个样本所属类别中的各个样本与该类别的中心点的偏差和，N表示所述训练样本集中样本的数量。

6.一种深度学习模型的训练装置，其特征在于，所述装置包括：

7.根据权利要求6所述的装置，其特征在于，所述中心点距离目标函数的中间参数包括：各个类别的中心点、每一类别中的各个样本与该类别的中心点的偏差和、每一类别中的各个样本与该类别的中心点的距离的平方和；

所述计算模块，具体用于：

根据以下公式，计算各个类别的中心点：

8.根据权利要求7所述的装置，其特征在于，所述更新模块，具体用于：

根据以下公式，更新各个类别的中心点：

9.根据权利要求6所述的装置，其特征在于，所述中心点距离目标函数为：

10.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-5任一所述的方法步骤。