CN114943330A

CN114943330A - 一种神经网络模型的训练方法、装置、设备及存储介质

Info

Publication number: CN114943330A
Application number: CN202110172561.XA
Authority: CN
Inventors: 熊凯
Original assignee: Guangzhou Shiyuan Electronics Thecnology Co Ltd; Guangzhou Shiyuan Artificial Intelligence Innovation Research Institute Co Ltd
Current assignee: Guangzhou Shiyuan Electronics Thecnology Co Ltd; Guangzhou Shiyuan Artificial Intelligence Innovation Research Institute Co Ltd
Priority date: 2021-02-08
Filing date: 2021-02-08
Publication date: 2022-08-26

Abstract

本发明公开了一种神经网络模型的训练方法、装置、设备及存储介质。本发明实施例提供的神经网络模型的训练方法，基于训练样本的特征向量的L2范数挖掘训练数据中的难样本，为该难样本的交叉熵损失值配置相应的权重，让模型在训练过程中更多地关注到难样本的学习，进而提高神经网络模型在实际应用过程中的泛化性。此外，基于训练样本的特征向量的L2范数挖掘训练数据中的难样本，无需计算训练样本间的相似度和排序操作，节省了计算资源，提高了训练效率。

Description

一种神经网络模型的训练方法、装置、设备及存储介质

技术领域

本发明实施例涉及机器学习技术领域，尤其涉及一种神经网络模型的训练方法、装置、设备及存储介质。

背景技术

当下基于深度学习的技术取得了显著应用成果，比如电商推荐系统、手机人脸解锁。深度学习算法是数据驱动的，即依赖大量的训练数据，且往往也需要对应的标签信息。比如训练人脸识别模型，需要先收集大量人脸图片，然后给每张人脸图片打上ID标签，然后将带标签的人脸图片作为训练数据，去训练人脸识别模型。跟人类的学习类似，对深度模型而言，不同的样本可能具有不同的学习难度。

一般而言，训练集中的大部分样本属于简单样本，一定比例的样本为困难样本。以分类型人脸识别模型的训练为例，模型输入单位是单个样本，此时简单样本可以是清晰的正脸，困难样本可能是一张侧脸或者存在遮挡、模糊等情况的人脸。以度量型人脸识别模型的训练为例，模型输入单位是组合样本，比如输入为人脸对(pair)，此时，简单样本可能是两张ID不同且脸部样貌差异明显的负样本对，或者是同一个ID的两张拍得几乎一样的正样本对，而困难样本可能是两张ID不同但脸部样貌接近的负样本对，或者同一个ID的两张样貌很不一样的正样本对。

在训练过程中经常出现一种情况，就是模型在简单样本上表现好，对应的样本损失很小，在困难样本上没怎么学，对应的样本损失较大，但由于简单样本数量庞大，导致整体的训练损失可能减小，此时若认为模型已训练收敛，将导致模型在实际应用过程中的泛化性较差。

发明内容

本发明提供一种神经网络模型的训练方法、装置、设备及存储介质，使得模型在训练过程中更多地关注到难样本的学习，进而提高神经网络模型在实际应用过程中的泛化性。

第一方面，本发明实施例提供了一种神经网络模型的训练方法，包括：

获取用于训练神经网络模型的第i批次的数据，所述第i批次的数据包括多个训练样本，所述训练样本标注有表示所述训练样本的类别的标签；

将所述第i批次的数据的多个所述训练样本分别输入待训练的神经网络模型中进行处理，得到用于预测所述训练样本属于各类别的第一概率向量；

基于所述第一概率向量和所述训练样本的标签计算所述训练样本的交叉熵损失值；

计算所述训练样本的特征向量的L2范数，所述特征向量为所述神经网络模型提取的，用于映射得到所述第一概率向量；

基于所述特征向量的L2范数确定所述训练样本的交叉熵损失值的权重；

计算所述第i批次的数据中各所述训练样本的交叉熵损失值乘以权重后的损失值之和，得到第一总损失值；

基于所述第一总损失值更新所述神经网络模型的参数。

第二方面，本发明实施例还提供了一种神经网络模型的训练装置，包括：

数据获取模块，用于获取用于训练神经网络模型的第i批次的数据，所述第i批次的数据包括多个训练样本，所述训练样本标注有表示所述训练样本的类别的标签；

第一概率值获取模块，用于将所述第i批次的数据的多个所述训练样本分别输入待训练的神经网络模型中进行处理，得到用于预测所述训练样本属于各类别的第一概率向量；

交叉熵损失值计算模块，用于基于所述第一概率向量和所述训练样本的标签计算所述训练样本的交叉熵损失值；

L2范数计算模块，用于计算所述训练样本的特征向量的L2范数，所述特征向量为所述神经网络模型提取的，用于映射得到所述概率向量；

权重确定模块，用于基于所述特征向量的L2范数确定所述训练样本的交叉熵损失值的权重；

第一总损失值计算模块，用于计算所述第i批次的数据中各所述训练样本的交叉熵损失值乘以权重后的损失值之和，得到第一总损失值；

参数更新模块，用于基于所述第一总损失值更新所述神经网络模型的参数。

第三方面，本发明实施例还提供了计算机设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如本发明第一方面提供的神经网络模型的训练方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明第一方面提供的神经网络模型的训练方法。

本发明实施例提供的神经网络模型的训练方法，在获取用于训练神经网络模型的第i批次的数据之后，将第i批次的数据的多个训练样本分别输入待训练的神经网络模型中进行处理，得到用于预测训练样本属于各类别的第一概率向量，基于第一概率向量和训练样本的标签计算训练样本的交叉熵损失值，计算训练样本的特征向量的L2范数，基于特征向量的L2范数确定训练样本的交叉熵损失值的权重，计算第i批次的数据中各训练样本的交叉熵损失值乘以权重后的损失值之和，得到第一总损失值，基于第一总损失值更新神经网络模型的参数。本发明实施例基于训练样本的特征向量的L2范数挖掘训练数据中的难样本，为该难样本的交叉熵损失值配置相应的权重，让模型在训练过程中更多地关注到难样本的学习，进而提高神经网络模型在实际应用过程中的泛化性。此外，基于训练样本的特征向量的L2范数挖掘训练数据中的难样本，无需计算训练样本间的相似度和排序操作，节省了计算资源，提高了训练效率。

附图说明

图1为本发明实施例一提供的神经网络模型的训练方法的流程图；

图2A为本发明实施例二提供的一种神经网络模型的训练方法的流程图；

图2B为基于公开数据集统计的特征向量的L2范数的分布图；

图3为本发明实施例三提供的一种分类预测方法；

图4为本发明实施例四提供的一种神经网络模型的训练装置的结构示意图；

图5为本发明实施例提供的一种分类预测装置的结构示意图；

图6为本发明实施例六提供的一种计算机设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1为本发明实施例一提供的神经网络模型的训练方法的流程图，本实施例可适用于对训练集中的难样本进行挖掘，让模型在训练过程中关注到难样本的学习，该方法可以由本发明实施例提供的神经网络模型的训练装置来执行，该装置可以由软件和/或硬件的方式实现，通常配置于计算机设备中，如图1所示，该方法具体包括如下步骤：

S101、获取用于训练神经网络模型的第i批次的数据，第i批次的数据包括多个训练样本，训练样本标注有表示训练样本的类别的标签。

本发明实施例中，待训练的神经网络模型用于实现数据的分类、识别任务，本发明实施例对待训练的神经网络模型的网络结构和应用场景不做限定。示例性的，在本发明的其中一实施例中，神经网络模型用于人脸识别，根据输入的人脸图片，预测该人脸图片所属的人的ID。以分类型深度人脸识别模型为例，神经网络模型可划分为主干网络(backbone)和头部网络(head)，主干网络对输入的人脸图片进行处理，输出该人脸图片的特征向量，头部网络对输入的特征向量进行处理，输出用于预测该人脸图片属于各ID的概率值。

用于训练神经网络模型的数据集包括多个类别的训练样本，每个类别具有多个训练样本，一个批次(batch)的数据包括多个训练样本，每个训练样本标注有表示该训练样本的类别的标签。对于分类型模型的训练，模型输入单位是单个训练样本，对于度量型模型的训练，模型输入单位是组合样本，比如输入为人脸对(pair)，本发明实施例在此不做限定。

示例性的，本发明其中一实施例中，以分类型深度人脸识别模型为例，用于训练神经网络模型的数据集包括10000个人的ID的人脸图片，一个批次具有64张人脸图片，每张人脸图片标注有标示该人脸图片所述的人的ID的标签。

S102、将第i批次的数据的多个训练样本分别输入待训练的神经网络模型中进行处理，得到用于预测训练样本属于各类别的第一概率向量。

将第i批次的数据的多个训练样本分别输入待训练的神经网络模型中进行处理，神经网络模型可以的对输入的训练样本进行卷积、池化、特征融合等操作，提取出用于表征训练样本的特征的特征向量，并经由全连接网络层的转换，输出用于预测训练样本的类别的logits向量，logits向量经由softmax函数归一化处理，得到用于预测训练样本属于各类别的第一概率向量。第一概率向量中每个位置分别对应每个类别，第一概率向量中最大元素值的位置对应的类别即为模型预测的该训练样本所属的类别。

示例性的，如上所述，主干网络对输入的人脸图像进行处理，得到该人脸图片的特征向量，示例性的，特征向量为512维。头部网络通过512×10000的全连接层，将512为的特征向量转换为10000维的logits向量。softmax函数对logits向量进行归一化处理，得到10000维的第一概率向量。第一概率向量中10000个位置分别对应10000个人的ID，第一概率向量中最大元素值的位置对应的ID作为模型预测的该训练样本的预测ID。

S103、基于第一概率向量和训练样本的标签计算训练样本的交叉熵损失值。

具体的，利用交叉熵损失函数计算训练样本的交叉熵损失值。对于二分类问题，模型最终预测的结果只有2类，对于每个类别我们预测的概率为p和1-p。此时，交叉熵损失值计算公式如下：

L＝-[y·log(p)+(1-y)·log(1-p)]

其中，y为训练样本的标签，正样本的标签为1，负样本的标签为0。P为模型预测的训练样本为正样本的概率值。

对于多分类问题，交叉熵损失值的计算公式如下：

其中，K为类别数量，y_c为指示变量(为0或1)，如果该类别和训练样本的标签表示的类别相同就是1，否则是0，p_c为模型预测的训练样本属于类别c的概率值。

S104、计算训练样本的特征向量的L2范数，特征向量为神经网络模型提取的，用于映射得到第一概率向量。

如前文所述，特征向量为神经网络模型提取的，用于表征训练样本的特征的向量，后续可以经由全连接网络层的转换，输出logits向量，logits向量经由softmax函数归一化处理，得到用于预测训练样本属于各类别的第一概率向量。

计算训练样本的特征向量的L2范数。特征向量的L2范数是指特征向量中各元素的平方和，然后求平方根，计算公式如下：

其中，‖x‖₂为特征向量x的L2范数，x_i为特征向量x中的第i个元素。

S105、基于特征向量的L2范数确定训练样本的交叉熵损失值的权重。

基于特征向量的L2范数确定训练样本的交叉熵损失值的权重。具体的，特征向量的L2范数反应了训练样本的难易程度，基于此，可以为不同的L2范数对应的训练样本的交叉熵损失值配置不同的权重。例如，特征向量的L2范数越小，对于模型来说，该训练样本的学习难度越大，此时，可以为该训练样本的交叉熵损失值配置比较大的权重，让模型在训练过程中更多地关注到难样本的学习。

S106、计算第i批次的数据中各训练样本的交叉熵损失值乘以权重后的损失值之和，得到第一总损失值。

在确定训练样本的交叉熵损失值的权重后，将该权重与对应的训练样本的交叉熵损失值相乘，得到加权后的损失值，然后计算第i批次的数据中各训练样本加权后的损失值之和，得到第一总损失值。

S107、基于第一总损失值更新神经网络模型的参数。

在得到第一总损失值之后，基于第一总损失值更新神经网络模型的参数。示例性的，在本发明的一些实施例中，将第一总损失值与第一预设值进行比较，在第一总损失值大于第一预设值时，更新神经网络模型的参数，并返回获取训练数据的步骤，以获取第i+1批次的数据，再次对神经网络模型进行训练，如此循环，直至第一总损失值小于或等于第一预设值时，确定神经网络模型训练完成。

现有技术中，通常需要计算一个批次中每个训练样本的特征向量与其余训练样本的特征向量的相似度，基于相似度挖掘难根本。例如，若某一训练样本的特征向量与其余所有训练样本(或其余大部分的训练样本)的特征向量的相似度均小于设定值，则确定该训练样本为难样本。由于该方法需要计算每两个样本间的相似度，且还要进行排序找到相似度的最大值或最小值，因此需要占用额外的计算资源，并延长训练时间。

实施例二

图2A为本发明实施例二提供的一种神经网络模型的训练方法的流程图，本实施例在上述实施例一的基础上进行细化，详细描述了确定训练样本的交叉熵损失值的权重的具体过程，如图2A所示，该方法具体包括如下步骤：

S201、获取用于训练神经网络模型的多个批次的数据。

本发明实施例中，在模型训练初期，一般只进行普通训练，否则一开始就关注难样本，可能会使得模型训练过程无法正常收敛。通常是待普通训练进行到一定程度，使得神经网络模型满足预设条件后，才启动难样本挖掘，让已在简单样本上学得较好的模型，开始倾向于难样本的学习。

S202、利用多个批次的数据对神经网络模型进行初始训练，直至神经网络模型满足预设条件。

本发明实施例，利用该多个批次的数据对神经网络模型进行初始训练，直至神经网络模型满足预设条件。预设条件可以根据实际情况来设置，比如设定一个损失阈值，监控模型的交叉熵损失值是否降至阈值以下，或者是否降低至阈值以下并经过设定批次的迭代训练；比如设置一个准确率阈值，监控模型在验证集上的准确率是否超过阈值，或者准确率是否超过阈值并经过设定批次的迭代训练；再比如，组合上述多种判定方式中的至少两种，监控模型是否同时满足。

示例性的，在本发明一具体实施例中，设定一个损失阈值，通过监控模型的交叉熵损失值是否降至阈值以下，进而判断神经网络模型是否满足预设条件。具体的，预设条件判断过程如下：

1、将第j批次的数据的多个训练样本分别输入待训练的神经网络模型中进行处理，得到用于预测所述训练样本属于各类别的第二概率向量。

如前述实施例所述，神经网络模型获取一个批次的数据(为了与前述实施例进行区分，此处称之为第j批次的数据)，对输入的该批次的数据中的训练样本进行卷积、池化、特征融合等操作，提取出用于表征训练样本的特征的特征向量，并经由全连接网络层的转换，输出用于预测训练样本的类别的logits向量，logits向量经由softmax函数归一化处理，得到用于预测训练样本属于各类别的第二概率向量。

2、基于第二概率向量和训练样本的标签计算训练样本的交叉熵损失值。

基于第二概率向量和训练样本的标签计算训练样本的交叉熵损失值，具体的，计算训练样本的交叉熵损失值的具体过程在前述实施例中已有详细记载，本发明实施例在此不再赘述。

3、计算第j批次的数据中各训练样本的交叉熵损失值之和，得到第二总损失值。

计算第j批次的数据中各训练样本的交叉熵损失值之和，得到该批次数据的总损失值，称之为第二总损失值。具体的，第二总损失值的计算公式如下：

其中，m一个批次中训练样本的数量，y_kc为指示变量(为0或1)，如果该类别和训练样本的标签表示的类别相同就是1，否则是0，p_kc为模型预测的第k个训练样本属于类别c的概率值，K为类别数量。示例性的，本发明实施例中，m＝64，K＝10000。

4、判断第二总损失是否小于或等于预设值。

将第二总损失值与预设的第二预设值进行比较，判断第二总损失是否小于或等于第二预设值。

5、在第二总损失值大于预设值时，更新神经网络模型的参数，将第j+1批次的数据的多个训练样本分别输入待训练的神经网络模型中进行处理。

具体的，在第二总损失值大于第二预设值时，更新神经网络模型的参数，并将第j+1批次的数据的多个训练样本分别输入待训练的神经网络模型中进行处理。

6、在第二总损失值小于或等于预设值时，确定神经网络模型满足预设条件。

如上所述，如此循环执行上述步骤1-5，直至第二总损失值小于或等于预设值时，确定神经网络模型满足预设条件。

S203、获取用于训练神经网络模型的第i批次的数据，第i批次的数据包括多个训练样本，训练样本标注有表示训练样本的类别的标签。

在普通训练进行到一定程度，使得神经网络模型满足预设条件后，此时，获取用于训练神经网络模型的第i批次的数据，启动难样本的挖掘训练。

S204、将第i批次的数据的多个训练样本分别输入待训练的神经网络模型中进行处理，得到用于预测训练样本属于各类别的第一概率向量。

将第i批次的数据的多个训练样本分别输入待训练的神经网络模型中进行处理，提取出用于表征训练样本的特征的特征向量，并经由全连接网络层的转换，输出用于预测训练样本的类别的logits向量，logits向量经由softmax函数归一化处理，得到用于预测训练样本属于各类别的第一概率向量。

示例性的，在本发明的其中一实施例中，神经网络模型用于人脸识别，根据输入的人脸图片，预测该人脸图片所属的人的ID。以分类型深度人脸识别模型为例，神经网络模型可划分为主干网络(backbone)和头部网络(head)，主干网络对输入的人脸图片进行处理，输出该人脸图片的特征向量，头部网络对输入的特征向量进行处理，输出用于预测该人脸图片属于各ID的概率值。用于训练神经网络模型的数据集包括10000个人的ID的人脸图片，一个批次具有64张人脸图片，每张人脸图片标注有标示该人脸图片所述的人的ID的标签。其中，训练样本(人脸图片)记为x_k。本发明实施例中，记主干网络为f_θ()，头部网络为

其中θ和

分别表示主干网络和头部网络的参数，则训练样本x_k的特征向量记为f_θ(x_k)。

在本发明的一些实施例中，为了加快模型的收敛速度，可以对特征向量标准化处理，得到标准化的特征向量，记为Norm(f_θ(x_k))。特征向量标准化是指将特征向量f_θ(x_k)中的每个元素除以特征向量的L2范数。因此，第一概率向量可以记为

S205、基于第一概率向量和训练样本的标签计算训练样本的交叉熵损失值。

具体的，利用交叉熵损失函数计算训练样本的交叉熵损失值。示例性的，用于训练神经网络模型的数据集包括10000个人的ID的人脸图片，即本发明实施例中的神经网络模型应用于多分类问题。多分类问题中，训练样本的交叉熵损失值的计算过程在前述实施例中已有详细记载，本发明实施例在此不再赘述。

示例性的，记多分类中训练样本的交叉熵损失函数为L_ce()，则训练样本的的交叉熵损失函数值记为

S206、计算训练样本的特征向量的L2范数，特征向量为神经网络模型提取的，用于映射得到第一概率向量。

计算训练样本的特征向量的L2范数，特征向量的L2范数是指特征向量中各元素的平方和，然后求平方根。示例性的，特征向量f_θ(x_k)的L2范数记为‖f_θ(x_k)‖₂。

S207、将第i批次的数据的多个训练样本对应的L2范数存入数据队列中。

在本发明实施例中，引入一个大小为m×p的数据队列Q，用于存特征向量的L2范数。以数据队列Q中的L2范数的分布近似整个数据集的训练样本的特征向量的L2范数的分布。其中，数据队列Q具有m×p个存储位，m为每一批次的数据中训练样本的数量，p为大于1的整数。p的取值不宜过小，避免数据队列Q中的L2范数的分布与整个数据集的L2范数的分布出现较大偏差，另一方面，p的取值也不能太大，因为模型在不断优化，学到的特征也在逐渐变好，将过早期的L2范数存起来，可能会给后续难样本挖掘带来负面影响。作为参考，在58万大小的MS1M上，大小为6400(m＝64，p＝100)的队列Q基本够用。具体的，L2范数存入数据队列的过程如下：

首先，判断数据队列是否存在空置的存储位。若是，则从空置的存储位中确定待存储的目标存储位；若否，则擦除第i-p批次的数据的多个训练样本对应的L2范数，得到目标存储位，然后将第i批次的数据的多个训练样本对应的L2范数存入目标存储位中。即数据队列初始为空，未存储数据，在第一次迭代训练(包括如前所述的普通训练)时，将第一批次数据对应的m个L2范数存入数据队列Q中。在后续的迭代训练过程中，当数据队列Q未装满时，直接将新一批数据对应的m个L2范数值存入数据队列Q中。当数据队列Q装满时，则先将数据队列Q中前m个值擦除，再存入新一批数据对应的m个L2范数。

S208、基于数据队列中所有L2范数的均值和标准差，以及训练样本的特征向量的L2范数确定训练样本的交叉熵损失值的权重。

在本发明实施例中，每次迭代训练时，均对数据队列Q中的数据进行更新(将该批次的数据对应的m个L2范数存入数据队列Q中)，然后基于更新后的数据队列Q中所有L2范数的均值和标准差，以及训练样本的特征向量的L2范数确定训练样本的交叉熵损失值的权重。

对于当前批次中的训练样本，有多种方法确定训练样本的交叉熵损失值的权重。示例性的，在本发明的其中一实施例中，通过设置用于表示训练样本难易程度的多个分区，根据训练样本的L2范数所属的分区来确定权重。具体过程如下：

1、计算数据队列中所有L2范数的均值和标准差。

具体的，计算更新后的数据队列Q中所有L2范数的均值μ，以及所有L2范数的标准差σ。

2、基于均值和标准差确定用于表示训练样本难易程度的多个分区，每一分区具有对应的交叉熵损失值的权重。

图2B为基于公开数据集统计的特征向量的L2范数的分布图，如图2B所示，以基于IR-ResNet50为主干网络的人脸识别模型为例，在公开人脸数据集MS1M的随机6400个样本上，统计的特征向量的L2范数(图中feature norm)基本符合高斯分布。高斯分布的两个重要参数即为均值μ和标准差σ。因此，数据队列Q中所有L2范数也会呈高斯分布，基于此，可以基于更新后的数据队列Q中所有L2范数均值μ和标准差σ确定用于表示训练样本难易程度的多个分区，每一分区具有对应的交叉熵损失值的权重。

示例性的，在本发明一具体实施例中，基于更新后的数据队列Q中所有L2范数均值μ和标准差σ，将数据队列Q中的所有数据划分为8个分区，分别为L4＝(-∞,μ-3σ]、L3＝(μ-3σ,μ-2σ]、L2＝(μ-2σ,μ-σ]、L1＝(μ-σ,μ]、R1＝(μ,μ+σ]、R2＝(μ+σ,μ+2σ]、R3＝(μ+2σ,μ+3σ]和R4＝(μ+3σ,∞)，这些分区对应的训练样本的学习难度呈下降趋势。困难样本主要集中在L2范数最小的L4和L3两个区。在本发明实施例中，困难样本主要为只露出半边脸、大角度侧脸、暗光情形等人脸图片。而R3和R4两个区对应的样本为非常容易的样本，在本发明实施例中，主要都是光照均匀的完整正脸。位于中间分区的样本为普通样本。

在确定分区后，设定各分区的权重。具体的，可以根据数据集的实际情况引入先验信息，比如，可将各分区权重依次设为{1.2，1.2，1.1，1.1，1.0，1.0，1.0，1.0}，表示要增加模型对前4个分区的样本的关注，其中重点关注前2个分区。

需要说明的是，上述实施例中，以8个分区作为示例对本发明实施例进行说明，在本发明其他实施例中，分区的数量可以根据数据集的实际情况设定，本发明实施例在此不做限定。

3、确定训练样本的特征向量的L2范数所属的分区。

确定训练样本的特征向量的L2范数落入的分区，进而可以确定该训练样本的交叉熵损失值的权重。

4、将训练样本的特征向量的L2范数所属的分区对应的权重作为训练样本的交叉熵损失值的权重。

示例性，对于训练样本x_k，若其特征向量记为f_θ(x_k)的L2范数‖f_θ(x_k)‖₂的值位于分区L3，则确定该训练样本x_k的交叉熵损失值的权重为1.2。

在本发明的另一实施例中，可以基于先验知识设定自适应权重函数，只需要将训练样本的特征向量的L2范数输入自适应权重函数，就能得到该训练样本对应的权重。具体过程如下：

1、基于数据队列中的L2范数的均值和标准差构建所述L2范数的高斯分布函数。

如前文所述，以基于IR-ResNet50为主干网络的人脸识别模型为例，在公开人脸数据集MS1M的随机6400个样本上，统计的特征向量的L2范数基本符合高斯分布。因此，可以采用高斯分布函数近似表示数据队列中L2范数的分布情况，高斯分布函数如下：

其中，z为训练样本的特征向量的L2范数，μ为数据队列中所有L2范数的均值，σ为数据队列中所有与L2范数的标准差。

2、基于高斯分布函数和所述数据队列中的L2范数的标准差构建自适应权重函数。

示例性的，在本发明实施例中，自适应权重函数如下：

其中，z为训练样本的特征向量的L2范数，G(z)为高斯分布函数，σ为数据队列中所有L2范数的标准差，T为预设的L2范数阈值，比如令T＝μ，表示将自适应调整L2范数低于μ的训练样本的损失权重，而无需关注L2范数低于μ的训练样本，进而节省计算资源，提高训练效率。

3、将训练样本的特征向量的L2范数输入自适应权重函数，得到训练样本的交叉熵损失值的权重。

具体的，将训练样本的特征向量的L2范数输入自适应权重函数，得到该训练样本的交叉熵损失值的权重。

本发明实施例，在迭代训练时，每次迭代训练时，均对数据队列Q中的数据进行更新(将该批次的数据对应的m个L2范数存入数据队列Q中)，然后基于更新后的数据队列Q中所有L2范数的均值和标准差，以及训练样本的特征向量的L2范数确定训练样本的交叉熵损失值的权重。通过数据队列Q中的L2范数的分布近似表示整个数据集中所有训练样本的特征向量的L2范数的分布，节省了计算成本，提高了训练效率，此外，动态更新数据队列Q，降低近似误差，提高模型预测的准确度。

S209、计算第i批次的数据中各训练样本的交叉熵损失值乘以权重后的损失值之和，得到第一总损失值。

具体的，在确定训练样本的交叉熵损失值的权重后，将该权重与对应的训练样本的交叉熵损失值相乘，得到加权后的损失值，然后计算第i批次的数据中各训练样本加权后的损失值之和，得到第一总损失值。

示例性的，在本发明一具体实施例中，如前文所述，训练样本的的交叉熵损失函数值记为

则加权后的损失值为

然后计算第i批次的数据中各训练样本加权后的损失值之和，得到第一总损失值L1。

S210、基于第一总损失值更新神经网络模型的参数。

本发明实施例提供的神经网络模型的训练方法，基于训练样本的特征向量的L2范数挖掘训练数据中的难样本，为该难样本的交叉熵损失值配置相应的权重，让模型在训练过程中更多地关注到难样本的学习，进而提高神经网络模型在实际应用过程中的泛化性。此外，基于训练样本的特征向量的L2范数挖掘训练数据中的难样本，无需计算训练样本间的相似度和排序操作，节省了计算资源，提高了训练效率。此外，引入数据队列，通过数据队列中的L2范数的分布近似表示整个数据集中所有训练样本的特征向量的L2范数的分布，节省了计算成本，提高了训练效率，此外，在迭代训练时动态更新数据队列，降低近似误差，提高模型预测的准确度。

一定意义上，噪声样本可以被认为是极度困难的样本，但噪声样本不应该被模型学习，在已知存在一定噪声的数据集上，我们依然可以采用前述难样本挖掘方法，去除噪声样本的模型训练的影响，进而提高模型的预测准确度。示例性的，对于通过设置用于表示训练样本难易程度的多个分区，根据训练样本的L2范数所属的分区来确定权重的实施例，可以将最小的分区的权重设置为0.1甚至更小。比如，设置各分区的权重为{0.1，1.2，1.1，1.1，1.0，1.0，1.0，1.0}，其中0.1就是给噪声样本的权重，让模型几乎不对噪声样本进行学习，这里没有直接设置为0.0，是因为噪声样本可能起一定的正则化作用，防止模型过拟合。对于通过自适应权重函数确定权重的实施例，可以将自适应权重函数设置成三段式，如下所示：

其中，L2范数小于或等于T₁的训练样本被认为是噪声样本，对应的权重为0.1，L2范数在T₁和T₂之间的训练样本被认为是难样本，L2范数大于或等于T₂的样本被认为是容易样本。

实施例三

图3为本发明实施例三提供的一种分类预测方法，本实施例可用于分类预测，该方法采用如本发明前述任意实施例提供的神经网络模型的训练方法训练得到的神经网络模型，该方法可以由本发明实施例提供的分类预测装置来执行，该装置可采用软件和/或硬件的方式实现，并集成于本发明实施例提供的计算机设备中，如图3所示，该方法具体包括如下步骤：

S301、获取待分类的样本。

示例性的，在本发明一具体实施例中，待分类的样本为人脸图片。

S302、将待分类的样本输入训练好的神经网络模型中进行处理，得到用于预测待分类的样本属于各类别的概率向量。

示例性的，神经网络模型可以的对输入的人脸图片进行卷积、池化、特征融合等操作，提取出用于表征人脸图片的特征的特征向量，并经由全连接网络层的转换，输出用于预测人脸图片的所属各ID的logits向量，logits向量经由softmax函数归一化处理，得到用于预测人脸图片属于各ID的概率向量。

S303、基于概率向量确定待分类的样本所属的类别。

概率向量中每个位置分别对应每个类别，概率向量中最大元素值的位置对应的类别即为模型预测的该待分类的样本所属的类别。示例性的，概率向量中10000个位置分别对应10000个人的ID，概率向量中最大元素值的位置对应的ID作为模型预测的待分类的样本的预测ID。

实施例四

图4为本发明实施例四提供的一种神经网络模型的训练装置的结构示意图，如图4所示，该装置包括：

第一数据获取模块401，用于获取用于训练神经网络模型的第i批次的数据，所述第i批次的数据包括多个训练样本，所述训练样本标注有表示所述训练样本的类别的标签；

概率值获取模块402，用于将所述第i批次的数据的多个所述训练样本分别输入待训练的神经网络模型中进行处理，得到用于预测所述训练样本属于各类别的第一概率向量；

交叉熵损失值计算模块403，用于基于所述第一概率向量和所述训练样本的标签计算所述训练样本的交叉熵损失值；

L2范数计算模块404，用于计算所述训练样本的特征向量的L2范数，所述特征向量为所述神经网络模型提取的，用于映射得到所述概率向量；

权重确定模块405，用于基于所述特征向量的L2范数确定所述训练样本的交叉熵损失值的权重；

第一总损失值计算模块406，用于计算所述第i批次的数据中各所述训练样本的交叉熵损失值乘以权重后的损失值之和，得到第一总损失值；

参数更新模块407，用于基于所述第一总损失值更新所述神经网络模型的参数。

在本发明的一些实施例中，权重确定模块405包括：

L2范数存储子模块，用于将所述第i批次的数据的多个训练样本对应的L2范数存入数据队列中；

权重确定子模块，用于基于所述数据队列中所有L2范数的均值和标准差，以及所述训练样本的特征向量的L2范数确定所述训练样本的交叉熵损失值的权重。

在本发明的一些实施例中，所述数据队列具有m×p个存储位，m为每一批次的数据中训练样本的数量，p为大于1的整数，L2范数存储子模块包括：

判断单元，用于判断所述数据队列是否存在空置的存储位；

第一目标存储位确定单元，用于在数据队列存在空置的存储位时，从所述空置的存储位中确定待存储的目标存储位；

第一目标存储位确定单元，用于在数据队列不存在空置的存储位时，擦除第i-p批次的数据的多个训练样本对应的L2范数，得到目标存储位；

L2范数存储单元，用于将所述第i批次的数据的多个训练样本对应的L2范数存入所述目标存储位中。

在本发明的一些实施例中，权重确定子模块包括：

计算单元，用于计算所述数据队列中所有L2范数的均值和标准差；

分区划分单元，用于基于所述均值和标准差确定用于表示训练样本难易程度的多个分区，每一分区具有对应的交叉熵损失值的权重；

分区确定单元，用于确定所述训练样本的特征向量的L2范数所属的分区；

权重确定单元，用于将所述训练样本的特征向量的L2范数所属的分区对应的权重作为所述训练样本的交叉熵损失值的权重。

在本发明的一些实施例中，权重确定子模块包括：

高斯分布函数确定单元，用于基于所述数据队列中的L2范数的均值和标准差构建所述L2范数的高斯分布函数；

自适应权重函数构建单元，用于所述高斯分布函数和所述数据队列中的L2范数的标准差；

权重确定单元，用于将所述训练样本的特征向量的L2范数输入所述自适应权重函数，得到所述训练样本的交叉熵损失值的权重。

在本发明的一些实施例中，所述高斯分布函数如下：

其中，z为训练样本的特征向量的L2范数，μ为所述数据队列中L2范数的均值，σ为所述数据队列中L2范数的标准差。

在本发明的一些实施例中，所述自适应权重函数如下：

其中，z为训练样本的特征向量的L2范数，G(z)为所述高斯分布函数，σ为所述数据队列中L2范数的标准差，T为预设的L2范数阈值。

在本发明的一些实施例中，神经网络模型的训练模块还包括：

第二数据获取模块，用于在获取用于训练神经网络模型的第i批次的数据之前，获取用于训练神经网络模型的多个批次的数据；

初始训练模块，用于利用多个批次的数据对神经网络模型进行初始训练，直至所述神经网络模型满足预设条件。

在本发明的一些实施例中，初始训练模块包括：

概率向量获取子模块，用于将第j批次的数据的多个所述训练样本分别输入待训练的神经网络模型中进行处理，得到用于预测所述训练样本属于各类别的第二概率向量；

交叉熵损失值计算子模块，用于基于所述第二概率向量和所述训练样本的标签计算所述训练样本的交叉熵损失值；

第二总损失值计算子模块，用于计算所述第j批次的数据中各训练样本的交叉熵损失值之和，得到第二总损失值；

判断子模块，用于判断所述第二总损失是否小于或等于预设值；

参数更新子模块，用于在所述第二总损失值大于所述预设值时，更新所述神经网络模型的参数，并将所述第j+1批次的数据的多个所述训练样本分别输入待训练的神经网络模型中进行处理；

预设条件满足确定子模块，用于在所述第二总损失值小于或等于预设值时，确定所述神经网络模型满足预设条件。

上述神经网络模型的训练装置可执行本发明任意实施例所提供的神经网络模型的训练方法，具备执行方法相应的功能模块和有益效果。

实施例五

图5为本发明实施例提供的一种分类预测装置的结构示意图，如图5所示，该装置包括：

待分类样本获取模块501，用于获取待分类的样本。

概率向量获取模块502，用于将待分类的样本输入训练好的神经网络模型中进行处理，得到用于预测待分类的样本属于各类别的概率向量。

类别确定模块503，用于基于概率向量确定待分类的样本所属的类别。

上述分类预测装置可执行本发明任意实施例所提供的分类预测方法，具备执行方法相应的功能模块和有益效果。

实施例六

本发明实施例六提供了一种计算机设备，图6为本发明实施例六提供的一种计算机设备的结构示意图，如图6所示，该计算机设备包括处理器601、存储器602、通信模块603、输入装置604和输出装置605；计算机设备中处理器601的数量可以是一个或多个，图6中以一个处理器601为例；计算机设备中的处理器601、存储器602、通信模块603、输入装置604和输出装置605可以通过总线或其他方式连接，图6中以通过总线连接为例。上述处理器601、存储器602、通信模块603、输入装置604和输出装置605可以集成在计算机设备的控制主板上。

存储器602作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中的神经网络模型的训练方法或分类预测方法对应的模块。处理器601通过运行存储在存储器602中的软件程序、指令以及模块，从而执行计算机设备的各种功能应用以及数据处理，即实现上述实施例提供的神经网络模型的训练方法或分类预测方法。

存储器602可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据计算机设备的使用所创建的数据等。此外，存储器602可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器602可进一步包括相对于处理器601远程设置的存储器，这些远程存储器可以通过网络连接至计算机设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

通信模块603，用于与外界设备(例如智能终端)建立连接，并实现与外界设备的数据交互。输入装置604可用于接收输入的数字或字符信息，以及产生与计算机设备的用户设置以及功能控制有关的键信号输入。

本实施例提供的一种计算机设备，可执行本发明上述任意实施例提供的神经网络模型的训练方法或分类预测方法，具体相应的功能和有益效果。

实施例七

本发明实施例七提供了一种包含计算机可执行指令的存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明上述任意实施例提供的神经网络模型的训练方法或分类预测方法。

神经网络模型的训练方法包括：

基于所述第一总损失值更新所述神经网络模型的参数。

分类预测方法采用如本发明上述任意实施例提供的神经网络模型的训练方法训练得到的神经网络模型，包括：

获取待分类的样本；

将待分类的样本输入训练好的神经网络模型中进行处理，得到用于预测待分类的样本属于各类别的概率向量；

基于概率向量确定待分类的样本所属的类别。

当然，本发明实施例所提供的一种包含计算机可执行指令的存储介质，其计算机可执行指令不限于如上所述的方法操作，还可以执行本发明实施例所提供的神经网络模型的训练方法或分类预测方法中的相关操作。

需要说明的是，对于装置、设备和存储介质实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(RandomAccess Memory，RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是机器人，个人计算机，服务器，或者网络设备等)执行本发明任意实施例所述的神经网络模型的训练方法或分类预测方法。

值得注意的是，上述装置中，所包括的各个模块、子模块、单元只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

应当理解的是，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行装置执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种神经网络模型的训练方法，其特征在于，包括：

基于所述第一总损失值更新所述神经网络模型的参数。

2.根据权利要求1所述的神经网络模型的训练方法，其特征在于，基于所述特征向量的L2范数确定所述训练样本的交叉熵损失值的权重，包括：

将所述第i批次的数据的多个训练样本对应的L2范数存入数据队列中；

基于所述数据队列中所有L2范数的均值和标准差，以及所述训练样本的特征向量的L2范数确定所述训练样本的交叉熵损失值的权重。

3.根据权利要求2所述的神经网络模型的训练方法，其特征在于，所述数据队列具有m×p个存储位，m为每一批次的数据中训练样本的数量，p为大于1的整数，将所述第i批次的数据的多个训练样本对应的L2范数存入数据队列中，包括：

判断所述数据队列是否存在空置的存储位；

若是，则从所述空置的存储位中确定待存储的目标存储位；

若否，则擦除第i-p批次的数据的多个训练样本对应的L2范数，得到目标存储位；

将所述第i批次的数据的多个训练样本对应的L2范数存入所述目标存储位中。

4.根据权利要求2所述的神经网络模型的训练方法，其特征在于，基于所述数据队列中所有L2范数的均值和标准差，以及所述训练样本的特征向量的L2范数确定所述训练样本的交叉熵损失值的权重，包括：

计算所述数据队列中所有L2范数的均值和标准差；

基于所述均值和标准差确定用于表示训练样本难易程度的多个分区，每一分区具有对应的交叉熵损失值的权重；

确定所述训练样本的特征向量的L2范数所属的分区；

将所述训练样本的特征向量的L2范数所属的分区对应的权重作为所述训练样本的交叉熵损失值的权重。

5.根据权利要求2所述的神经网络模型的训练方法，其特征在于，基于所述数据队列中所有L2范数的均值和标准差，以及所述训练样本的特征向量的L2范数确定所述训练样本的交叉熵损失值的权重，包括：

基于所述数据队列中的L2范数的均值和标准差构建所述L2范数的高斯分布函数；

基于所述高斯分布函数和所述数据队列中的L2范数的标准差构建自适应权重函数；

将所述训练样本的特征向量的L2范数输入所述自适应权重函数，得到所述训练样本的交叉熵损失值的权重。

6.根据权利要求5所述的神经网络模型的训练方法，其特征在于，所述高斯分布函数如下：

7.根据权利要求5所述的神经网络模型的训练方法，其特征在于，所述自适应权重函数如下：

8.根据权利要求1-7任一所述的神经网络模型的训练方法，其特征在于，在获取用于训练神经网络模型的第i批次的数据之前，还包括：

获取用于训练神经网络模型的多个批次的数据；

利用多个批次的数据对神经网络模型进行初始训练，直至所述神经网络模型满足预设条件。

9.根据权利要求8所述的神经网络模型的训练方法，其特征在于，利用多个批次的数据对神经网络模型进行初始训练，直至所述神经网络模型满足预设条件，包括：

将第j批次的数据的多个所述训练样本分别输入待训练的神经网络模型中进行处理，得到用于预测所述训练样本属于各类别的第二概率向量；

基于所述第二概率向量和所述训练样本的标签计算所述训练样本的交叉熵损失值；

计算第j批次的数据中各训练样本的交叉熵损失值之和，得到第二总损失值；

判断所述第二总损失是否小于或等于预设值；

在所述第二总损失值大于所述预设值时，更新所述神经网络模型的参数，并将第j+1批次的数据的多个所述训练样本分别输入待训练的神经网络模型中进行处理；

在所述第二总损失值小于或等于预设值时，确定所述神经网络模型满足预设条件。

10.一种神经网络模型的训练装置，其特征在于，包括：

11.一种计算机设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-9中任一所述的神经网络模型的训练方法。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-9中任一所述的神经网络模型的训练方法。