CN110991652A

CN110991652A - 神经网络模型训练方法、装置及电子设备

Info

Publication number: CN110991652A
Application number: CN201911219136.0A
Authority: CN
Inventors: 王润哲
Original assignee: Beijing Megvii Technology Co Ltd
Current assignee: Beijing Megvii Technology Co Ltd
Priority date: 2019-12-02
Filing date: 2019-12-02
Publication date: 2020-04-10

Abstract

本发明提供了一种神经网络模型训练方法、装置及电子设备，涉及机器学习技术领域，该方法包括：首先获取预先标注好的训练样本；然后将训练样本输入神经网络模型，通过神经网络模型的前向传播过程得到训练样本的预测值；再基于训练样本的预测值，利用目标损失函数确定该训练样本对应的损失值，所述目标损失函数中的调节参数的值与训练样本的预测值成负相关；最后基于损失值进行神经网络模型的后向传播和参数更新过程，直至训练结束。本发明能够提升训练后的神经网络模型的识别准确率。

Description

神经网络模型训练方法、装置及电子设备

技术领域

本发明涉及机器学习技术领域，尤其是涉及一种神经网络模型训练方法、装置及电子设备。

背景技术

何凯明在论文《Focal Loss for Dense Object Detection》中指出了单阶段检测器中样本类别(前景与背景)严重不均衡的问题，这是由于单阶段检测器的训练样本中存在大量的简单样本，且都是负样本(即除目标以外的背景构成的样本)，导致单阶段检测器存在正负样本不平衡的问题，此外，该部分的简单样本会主导单阶段检测器的模型梯度更新方向，对于模型起主要贡献作用，进而导致单阶段检测器的模型学习不到准确的样本信息，无法对样本进行准确分类。因此，何凯明在论文中针对单阶段检测器中样本类别(前景与背景)严重不均衡的问题，提出了使用Focal Loss损失函数

来抑制大量的简单背景样本对模型训练的影响。

在神经网络模型训练中，同样存在样本不均衡的问题，由于训练样本采样时容易受到场景、光照、角度、距离等因素的影响，导致相同类别的训练样本中，存在容易分类的简单样本和难以分类的困难样本，通过在神经网络模型训练中引入Focal Loss损失函数，使模型训练时降低简单样本的权重并增加困难样本的权重。但是，现有技术直接将现有的Focal Loss损失函数应用于神经网络模型训练，在训练样本的分类效果较好时，随着训练样本预测分数的增大，Focal Loss损失函数的权重降低幅度较大，导致训练得到的神经网络模型识别准确率较低。

发明内容

有鉴于此，本发明的目的在于提供一种神经网络模型训练方法、装置及电子设备，以提升训练后的神经网络模型的识别准确率。

为了实现上述目的，本发明实施例采用的技术方案如下：

第一方面，本发明实施例提供了一种神经网络模型训练方法，所述方法包括：获取预先标注好的训练样本；将所述训练样本输入所述神经网络模型，通过所述神经网络模型的前向传播过程得到所述训练样本的预测值；基于所述训练样本的预测值，利用目标损失函数确定该训练样本对应的损失值，所述目标损失函数中的调节参数的值与训练样本的预测值成负相关；基于所述损失值进行所述神经网络模型的反向传播和参数更新过程，直至训练结束。

进一步，本发明实施例提供了第一方面的第一种可能的实施方式，其中，所述目标损失函数为

其中，为调节参数，

为所述训练样本的预测值，α为所述训练样本中正样本和负样本的权重调节参数，y为所述训练样本的标注值。

进一步，本发明实施例提供了第一方面的第二种可能的实施方式，其中，所述调节参数的计算算式为

其中，γ为预设的超参数。

进一步，本发明实施例提供了第一方面的第三种可能的实施方式，其中，所述调节参数的计算算式为

其中，γ为预设的超参数，d是取值范围为(0,1)的常数。

进一步，本发明实施例提供了第一方面的第四种可能的实施方式，其中，所述神经网络模型为卷积神经网络或循环神经网络。

进一步，本发明实施例提供了第一方面的第五种可能的实施方式，其中，所述通过所述神经网络模型的前向传播过程得到所述训练样本的预测值的步骤，包括：获取所述神经网络模型根据所述训练样本输出的张量，并基于所述张量计算得到所述训练样本的预测值，所述预测值的计算算式为：

其中，softmax为所述神经网络模型的逻辑回归计算，w^l为权重，b^l为偏置，a^l-1为所述神经网络模型第l隐含层输出的张量。

进一步，本发明实施例提供了第一方面的第六种可能的实施方式，其中，所述基于所述损失值进行所述神经网络模型的反向传播和参数更新过程，直至训练结束的步骤，包括：基于所述损失值进行所述神经网络模型的反向传播过程得到所述训练样本的权重的改变率和偏置的改变率；基于所述训练样本的权重的改变率和所述偏置的改变率分别对所述训练样本的权重及所述偏置进行参数更新；基于所述训练样本重复执行所述神经网络模型的前向传播、计算所述损失值、后向传播和参数更新过程，直到执行次数达到预设次数时训练结束。

进一步，本发明实施例提供了第一方面的第七种可能的实施方式，其中，所述基于所述训练样本的权重的改变率和所述偏置的改变率分别对所述训练样本的权重及所述偏置进行参数更新的步骤，包括：根据所述训练样本的权重的改变率更新所述训练样本的权重，更新后的所述训练样本的权重为：

其中，为所述神经网络模型的学习率，

为所述训练样本的权重的改变率，C为利用所述目标损失函数计算得到的所述训练样本的损失值，

为所述神经网络模型第l隐含层中第j个神经元和第k个神经元之间的权重；根据所述偏置的改变率更新所述训练样本的偏置，更新后的所述偏置为：

其中，

为所述偏置的改变率，

为所述神经网络模型第l隐含层中第j个神经元的偏置。

第二方面，本发明实施例还提供了一种神经网络模型训练装置，所述装置包括：样本获取模块，用于获取预先标注好的训练样本；预测值计算模块，用于将所述训练样本输入所述神经网络模型，通过所述神经网络模型的前向传播过程得到所述训练样本的预测值；损失值计算模块，用于基于所述训练样本的预测值，利用目标损失函数确定该训练样本对应的损失值，所述目标损失函数中的调节参数的值与训练样本的预测值成负相关；参数更新模块，用于基于所述损失值进行所述神经网络模型的反向传播和参数更新过程，直至训练结束。

第三方面，本发明实施例提供了一种电子设备，包括：处理器和存储装置；所述存储装置上存储有计算机程序，所述计算机程序在被所述处理器运行时执行上述第一方面任一项所述的方法。

第四方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行上述第一方面任一项所述的方法的步骤。

本发明实施例提供了一种神经网络模型训练方法、装置及电子设备，该方法包括：首先获取预先标注好的训练样本；然后将训练样本输入神经网络模型，通过神经网络模型的前向传播过程得到训练样本的预测值；再基于训练样本的预测值，利用目标损失函数确定该训练样本对应的损失值，所述目标损失函数中的调节参数的值与训练样本的预测值成负相关；最后基于损失值进行神经网络模型的后向传播和参数更新过程，直至训练结束。由于Soft Focal Loss损失函数的权重降低幅度取决于调节参数，通过使目标损失函数中的调节参数的值随训练样本的预测值的增大而减小，减缓了目标损失函数的权重降低幅度，提升了训练后的神经网络模型的识别准确率。

本发明实施例的其他特征和优点将在随后的说明书中阐述，或者，部分特征和优点可以从说明书推知或毫无疑义地确定，或者通过实施本发明实施例的上述技术即可得知。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本发明实施例所提供的一种电子设备结构示意图；

图2示出了本发明实施例所提供的一种神经网络模型训练方法流程图；

图3示出了本发明实施例所提供的一种Soft Focal Loss损失函数的权重衰减曲线图；

图4示出了本发明实施例所提供的另一种Soft Focal Loss损失函数的权重衰减曲线图；

图5示出了本发明实施例所提供的一种神经网络模型训练装置的结构框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。

目前，神经网络模型已广泛应用于各个领域，在使用神经网络模型进行识别前，需要对神经网络模型进行预先训练，神经网络模型的训练步骤主要包括前向传播、损失计算、后向传播和参数更新等步骤，而训练样本的损失计算直接关系到模型中的参数更新，进而影响到神经网络模型的训练效果及训练得到的神经网络模型的识别准确率，现有的神经网络模型中主要采用何凯明提出的Focal Loss损失函数计算训练样本的损失值。然而，在神经网络模型训练中，现有的Focal Loss损失函数对于简单样本权重的降低幅度过大，并不适用于模型训练中简单样本和困难样本差异较小的情况，导致训练得到的神经网络模型存在准确率较低的问题。针对上述问题，本发明实施例提供了一种神经网络模型训练方法、装置及电子设备，可以应用于在神经网络模型的训练中提升神经网络模型的准确率。以下对本发明实施例进行详细介绍。

实施例一：

首先，参照图1来描述用于实现本发明实施例的一种神经网络模型训练方法、装置及电子设备的示例电子设备100。

如图1所示的一种电子设备的结构示意图，电子设备100包括一个或多个处理器102、一个或多个存储装置104、输入装置106、输出装置108以及图像采集装置110，这些组件通过总线系统112和/或其它形式的连接机构(未示出)互连。应当注意，图1所示的电子设备100的组件和结构只是示例性的，而非限制性的，根据需要，所述电子设备也可以具有其他组件和结构。

所述处理器102可以采用数字信号处理器(DSP)、现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)中的至少一种硬件形式来实现，所述处理器102可以是中央处理单元(CPU)、图形处理单元(GPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元中的一种或几种的组合，并且可以控制所述电子设备100中的其它组件以执行期望的功能。

所述存储装置104可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器102可以运行所述程序指令，以实现下文所述的本发明实施例中(由处理器实现)的客户端功能以及/或者其它期望的功能。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据，例如所述应用程序使用和/或产生的各种数据等。

所述输入装置106可以是用户用来输入指令的装置，并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。

所述输出装置108可以向外部(例如，用户)输出各种信息(例如，图像或声音)，并且可以包括显示器、扬声器等中的一个或多个。

所述图像采集装置110可以拍摄用户期望的图像(例如照片、视频等)，并且将所拍摄的图像存储在所述存储装置104中以供其它组件使用。

示例性地，用于实现根据本发明实施例的神经网络模型训练方法、装置及电子设备的示例电子设备可以被实现为诸如智能手机、平板电脑、计算机等智能终端。

实施例二：

参见图2所示的神经网络模型训练方法流程图，该方法可以由诸如前述电子设备执行，在一种实施方式中，该电子设备可以为配置有神经网络模型的处理设备(诸如服务器或计算机等)，该方法主要包括以下步骤S202～步骤S208：

步骤S202，获取预先标注好的训练样本。

上述训练样本可以是图像，通过对上述训练样本进行标注，标记出上述训练样本中的目标，从而产生正样本和负样本，上述正样本即为标记出的目标，上述负样本为图片中除目标以外的背景图像。在进行神经网络模型训练时，上述训练样本可以是一个训练样本，也可以是多个训练样本。

步骤S204，将训练样本输入神经网络模型，通过神经网络模型的前向传播过程得到训练样本的预测值。

上述神经网络模型包括输入层、隐含层和输出层。将上述训练样本输入神经网络模型后，神经网络模型可以进行前向传播过程，并通过输出层输出上述训练样本的预测值(也可以称为预测概率)。若上述训练样本为多个样本，神经网络模型可以通过前向传播过程分别计算每个样本的预测值。上述训练样本按照是否容易分类可以划分成简单样本和困难样本，预测值较高的训练样本为比较容易分类的简单样本，而预测值较低的样本为较难以分类的困难样本，简单样本和困难样本具体划分方式，可以采用人为设定预测值界限的方式实现。

由于卷积神经网络是仿造生物的视知觉机制构建的，其隐含层内的卷积核参数共享和层间连接的稀疏性使得卷积神经网络能够以较小的计算量对格点化特征，卷积神经网络对诸如像素和音频学习有稳定的效果且对训练数据没有额外的特征工程要求。循环神经网络具有记忆性、参数共享并且图灵完备，因此在对序列的非线性特征进行学习时具有一定优势，而引入了卷积神经网络构筑的循环神经网络可以处理包含序列输入的计算机视觉问题。因此，上述神经网络模型可以为卷积神经网络或循环神经网络。上述卷积神经网络的输入层可以处理多维数据，卷积神经网络的隐含层包含卷积层、池化层和全连接层3类常见构筑，在常见构筑中，卷积层和池化层为卷积神经网络特有的结构，卷积神经网络中输出层的上游通常是全连接层，因此其结构和工作原理与传统前馈神经网络中的输出层相同。上述循环神经网络为引入了卷积神经网络构筑的网络模型。

步骤S206，基于训练样本的预测值，利用目标损失函数确定该训练样本对应的损失值，该目标损失函数中的调节参数的值与训练样本的预测值成负相关。

本实施例提供的目标损失函数是对Focal Loss损失函数改进后的损失函数。将上述训练样本的预测值，带入神经网络模型中预先配置的目标损失函数中，基于目标损失函数计算该训练样本的损失值，若训练样本包括多个样本，则基于该目标损失函数分别计算每个样本的损失值(也可以称为样本的损失)。

上述目标损失函数中的调节参数的值与训练样本的预测值成负相关，即目标损失函数中调节参数的值随着训练样本的预测值的增大而减小，由于目标损失函数的权重降低幅度取决于调节参数，通过将目标损失函数中的调节参数的值与训练样本的预测值成负相关，随着训练样本的预测值的增大使目标损失函数的权重降低幅度有所缓和。由于上述目标损失函数的曲线相比较于Focal Loss损失函数，随着预测值的增大权重降低幅度较为缓和，因此上述目标损失函数也可以称为Soft Focal Loss损失函数。

步骤S208，基于损失值进行神经网络模型的反向传播和参数更新过程，直至训练结束。

上述目标损失函数计算得到的训练样本的损失值会影响到参数更新时的变化幅度，通过基于训练样本的损失值进行神经网络模型的反向传播和参数更新过程，使简单样本和困难样本之间的权重差异变得更为缓和。上述模型训练结束的条件是重复执行上述步骤S202～步骤S208的次数达到预设次数，该预设次数可以是人为设定的模型训练次数并存储在神经网络模型中。

本发明实施例提供的上述神经网络模型训练方法，由于目标损失函数的权重降低幅度取决于调节参数，通过使目标损失函数中的调节参数的值随训练样本的预测值的增大而减小，减缓了目标损失函数的权重降低幅度，提升了训练得到的神经网络模型的准确率。

本实施例提供的目标损失函数计算得到的上述训练样本的损失值是随着训练样本的预测值的增大而减小的，为了减缓Focal Loss损失函数的权重降低幅度，在一种具体的实施方式中，上述目标损失函数为：

其中，为调节参数，

为训练样本的预测值，α为训练样本中正样本和负样本的权重调节参数，y为训练样本的标注值(也可以称为训练样本的实际标签)，其中，训练样本的标注值是神经网络模型根据输入的训练样本输出的。上述正负样本的权重调节参数α的取值范围是(0,1)，在实际应用中，为了达到较好的神经网络模型训练效果，上述正样本和负样本的权重调节参数α的取值一般为0.5。

上述训练样本的预测值

为神经网络模型的输出值，

的取值在0到1之间，当

大于预设阈值时，表示该训练样本被预测为正样本，当

小于该预设阈值时，表示该训练样本被预测为负样本。在一实施例中，该预设阈值的取值可以根据具体应用情况进行设定，例如可以为0.5、0.68、0.83等，本申请实施例对此不作限定。在经过若干轮训练之后，正样本的

的取值可以反映训练样本预测的难易程度，正样本

的取值越接近于1意味着该训练正样本越容易被正确分类；负样本反之，即负样本

的取值越接近于0意味着该训练负样本越容易被正确分类。诸如，

的训练正样本比

的训练正样本容易分类，

的训练负样本比

的训练负样本容易分类。在本实施例中，上述训练样本的标注值y是人为设定的训练样本的标注值，y的取值为0或1，当y为0时表示该训练样本为负样本，当y为1时表示该训练样本为正样本，当然还可以将标注值设定为其他值，本申请实施例对此不作限定。

为了使调节参数的值与训练样本的预测值成负相关，可以将调节参数设置成与训练样本的预测值的相关函数，本实施例提供了两种获取调节参数与训练样本的预测值函数关系的具体实施方式：

实施方式一：上述调节参数的计算算式为

其中，γ为预设的超参数。将

代入Soft Focal Loss损失函数后，Soft Focal Loss损失函数的形式变为

本实施例通过将FocalLoss损失函数中的调节参数由γ改为

γ作为超参数仍然决定着权重的降低幅度，然而

随着

的增大降低幅度有所缓和。

实施方式二：上述调节参数的计算算式为

其中，γ为预设的超参数，为了避免在

趋近于0时，

的取值过大，将上述调节参数的计算算式中的常数d设置成取值范围为(0,1)的常数。由于上述超参数γ为常数，随着

的增大同样减缓了

的降低幅度。

为了便于理解，本实施例对何凯明提出的原Focal Loss损失函数与本申请提供的目标损失函数(Soft Focal Loss损失函数)进行对比说明。其中，原Focal Loss损失函数为

α＝0.5，本申请提供的目标损失函数(Soft Focal Loss损失函数)为

α＝0.5。参见如图3所示的Soft Focal Loss损失函数的权重衰减曲线图，其中，图3中的实线(图3中用Focal loss标注)为原Focal Loss损失函数的权重衰减曲线，图3中的虚线(图3中用soft Focal loss标注)为本申请提供的Soft Focal Loss损失函数的权重衰减曲线(Focal Loss损失函数和Soft Focal Loss损失函数的权重衰减曲线均为在交叉熵函数的基础上的权重衰减)，该曲线图的横轴变量为训练样本的预测值

(即图中示出的prediction score)，

的取值范围为(0,1)，该曲线图的纵轴变量为训练样本损失的权重(即图中示出的loss reduce)。如图3所示，当训练样本的预测值

趋近于1时，则

接近于0，

将会接近于0，即当训练样本分类接近正确时(训练样本的预测值接近于1时)，Soft Focal Loss损失函数会降低该训练样本的权重，而降低该训练样本权重的降低幅度取决于调节参数，Soft Focal Loss损失函数通过降低简单样本的权重，使神经网络模型聚焦于对困难样本的分类。从图3中可以看出，原Focal Loss损失函数使训练样本在训练效果较好的时候权重大幅下降，忽视了简单样本在模型训练中的作用；而Soft Focal Loss损失函数减缓了权重衰减曲线的衰减幅度，随着训练样本的预测值

趋近于1，训练样本损失的权重的下降幅度减缓，从而减缓了训练样本的权重下降幅度，直到训练样本的预测值

接近于1时，权重快速下降趋近于0。因此，Soft Focal Loss损失函数可以使简单样本和困难样本之间的权重差异变得更为缓和，同时样本训练很好的时候权重快速降低使模型稳定收敛。根据上述可知，本实施例提供的Soft Focal Loss损失函数

能够较好地减缓简单样本的权重下降幅度，提升了神经网络模型的训练效果，进而提升了神经网络模型的表现。

为了准确地获得训练样本的预测值，本实施例提供了通过神经网络模型的前向传播过程得到训练样本的预测值的具体实施方式：获取神经网络模型根据训练样本输出的张量，并基于张量计算得到训练样本的预测值，预测值的计算算式为：

其中，softmax为神经网络模型的逻辑回归计算，w^l为权重，b^l为偏置，a^l-1为神经网络模型第l隐含层输出的张量。当上述神经网络模型的第l隐含层为卷积层时，第l卷积层输出的张量为a^l，权重为w^l，偏置为b^l，上述张量可以使用激活函数ReLU表示为a^l＝ReLU(a^l-1w^l+b^l)。当上述神经网络模型的第l隐含层为全连接层时，上述张量可以使用激活函数sigmoid表示为a^l＝σ(w^la^l-1+b^l)。神经网络模型再基于逻辑回归模型计算并输出训练样本的预测值

为了提升神经网络模型的训练效果，提高神经网络模型的识别准确率，在计算出训练样本的损失值后，需要根据计算得到的损失值更新训练样本的相关参数，从而使神经网络模型在下一轮模型训练中聚焦于训练难分类的训练样本。本实施例提供了基于损失值进行神经网络模型的后向传播和参数更新过程，直至训练结束的实施方式，具体可参照如下步骤(1)～步骤(3)执行：

步骤(1)：基于损失值进行神经网络模型的后向传播过程得到训练样本的权重的改变率和偏置的改变率。基于上述神经网络模型的后向传播过程计算代价函数对权重的改变率和偏置的改变率。记上述神经网络模型中每个神经元的误差为

其中，

为神经网络模型第l隐含层中第j个神经元的输出，上述神经网络模型的输出层误差为：

由于误差是可以在神经网络中传递的，误差传递算式为：

δ^l＝((w^l+1)^Tδ^l+1)eσ'(z^l)

其中，(w^l+1)^T为求矩阵的转置计算。

代价函数对权重的改变率为：

代价函数对偏置的改变率为：

由于

其中，

为第l-1隐含层中第k个神经元的输出张量，所以

因此，代价函数对偏置的改变率为：

步骤(2)：基于训练样本的权重的改变率和偏置的改变率分别对训练样本的权重及偏置进行参数更新。

根据训练样本的权重的改变率更新训练样本的权重，更新后的训练样本的权重为：

其中，为神经网络模型的学习率，

为训练样本的权重的改变率，C为利用Soft Focal Loss损失函数计算得到的训练样本的损失值，

为神经网络模型第l隐含层中第j个神经元和第k个神经元之间的权重。更新后的权重w'将作为神经网络模型隐含层中新的权重w进行下一轮的样本训练。根据偏置的改变率更新训练样本的偏置，更新后的偏置的改变率为：

其中，

为偏置的改变率，

为神经网络模型第l隐含层中第j个神经元的偏置。更新后的偏置b'将作为神经网络模型隐含层中新的偏置b进行下一轮的样本训练。

步骤(3)：基于训练样本重复执行神经网络模型的前向传播、计算损失值、后向传播和参数更新过程，直到执行次数达到预设次数时训练结束。对上述训练样本分别重复执行神经网络模型的前向传播、基于Soft Focal Loss损失函数计算训练样本的损失值、后向传播和参数更新过程，当全部的训练样本分别重复执行上述训练步骤的次数达到预设次数时，神经网络模型的训练过程结束，其中，该预设次数是人为设定的能够使神经网络模型达到较好训练效果的数值。

在实际应用中，由于函数表示形式的多样性，何凯明提出的Focal Loss损失函数还可以表示为另一种形式：

由于上述Focal Loss损失函数

的超参数为常数，以超参数在Focal Loss损失函数L1中的最优取值γ＝2为例，当某一训练样本的预测值

时，Soft Focal Loss损失函数L1将在交叉熵函数的基础上衰减为1/25，当

时，Focal Loss损失函数L1将在交叉熵函数的基础上衰减达到了1/100，大幅度减小了该训练样本的权重，但是该样本在神经网络模型是仍然需要进一步训练的，因此，现有的Focal Loss损失函数

在模型训练任务中的训练效果并不理想。

相应的，本实施例将Focal Loss损失函数L1中的超参数γ设置为关于训练样本的预测值的函数：

且增加因子(1+μ)，即Soft Focal Loss损失函数的另一种形式为：

(可以使用Soft Focal Loss损失函数C1表示)，其中，

为训练样本的预测值，γ为超参数，μ是人为设定的常数，log计算的底数一般取值为2。Soft Focal Loss损失函数C1通过将γ修改为

减缓了损失函数的权重降低幅度，通过增加因子1+μ可以抵消不同μ对神经网络模型的学习率的影响。为了更加直观体现出Soft Focal Loss损失函数C1对神经网络模型训练效果的提升，本实施例分别绘制了Soft Focal Loss损失函数L1和Soft Focal Loss损失函数C1的权重衰减曲线，并且增加了Soft Focal Loss损失函数C1在不同μ值下的权重衰减曲线的对比实验，参见如图4所示的Soft Focal Loss损失函数的权重衰减曲线图，该曲线图的横轴变量为训练样本的预测值

(即图中示出的prediction score)，

的取值范围为(0,1)，该曲线图的纵轴变量为训练样本损失的权重(即图中示出的loss reduce)，图4中标注出了Focal Loss损失函数L1和Soft Focal Loss损失函数C1的曲线，其中，图4中的实线为Focal Loss损失函数L1的权重衰减曲线，图4中的虚线为Soft Focal Loss损失函数C1分别在μ＝1.5，μ＝1.3和μ＝1.7时的权重衰减曲线，从图4中可以看出，在μ＝1.5Soft Focal Loss损失函数C1的权重衰减曲线下降幅度较为缓和，因此，Soft Focal Loss损失函数C1在μ＝1.5时神经网络模型的训练效果较好。

本实施例提供的上述神经网络模型训练方法，通过将神经网络模型中Soft FocalLoss损失函数的调节参数设置为与训练样本预测值相关的函数，随着训练样本预测值的增大减缓了目标损失函数对于简单样本权重的降低幅度，使神经网络模型在预设次数的训练周期内聚焦困难样本训练的同时，不忽视对简单样本的训练，从而提高了训练后的神经网络模型的识别准确率。

实施例三：

在前述实施例的基础上，本实施例提供了一种应用前述神经网络模型训练方法的具体示例，以将神经网络模型训练方法应用于对卷积神经网络训练为例，将训练样本输入卷积神经网络，基于输入的训练样本对卷积神经网络进行模型训练，其中，该卷积神经网络预先配置有Soft Focal Loss损失函数，上述Soft Focal Loss损失函数为：

具体可以参照如下步骤1～步骤5执行：

步骤1：基于卷积神经网络的前向传播过程，获取卷积神经网络输出的训练样本的预测值和标注值。若输入卷积神经网络的训练样本为一个训练样本，卷积神经网络会根据该训练样本输出相应的张量，卷积神经网络的第l层卷积层输出的张量为a^l＝ReLU(a^l-1w^l+b^l)，第l层全连接层输出的张量为a^l＝σ(w^la^l-1+b^l)，将上述获取到的第l层卷积层输出的张量或第l层全连接层输出的张量使用逻辑回归模型计算该训练样本的预测值，该预测值为

卷积神经网络还会输出该训练样本的标注值y。若输入卷积神经网络的训练样本为多个训练样本，卷积神经网络会分别输出每个训练样本的标注值和预测值。

步骤2：将上述获取到的训练样本的标注值和预测值，代入卷积神经网络预先配置有Soft Focal Loss损失函数，计算得到训练样本的损失值。若输入卷积神经网络的训练样本为一个训练样本，根据Soft Focal Loss损失函数计算得到该样本的损失值。若输入卷积神经网络的训练样本为多个训练样本，根据上述获取到的每个训练样本的标注值和预测值，分别计算每个训练样本的损失值。训练样本的预测值越高，其计算得到的损失值越低，表明该训练样本越容易分类识别。

步骤3：基于卷积神经网络的反向传播过程计算得到卷积神经网络中代价函数对权重的改变率和代价函数对偏置的改变率。

步骤4：基于权重的改变率和偏置的改变率，分别更新卷积神经网络中的参数：权重和偏置。分别更新每一个训练样本的权重的改变率，更新后的训练样本的权重为：

其中，为卷积神经网络的学习率，该学习率可以是基于卷积神经网络人为设定的，

为代价函数对权重的改变率；更新后的偏置为：

其中，

为代价函数对偏置的改变率。

步骤5：基于更新后的训练样本的权重和偏置，重复执行上述步骤1至步骤4的模型训练步骤，直到上述卷积神经网络的执行次数达到预设次数，即模型训练结束。该预设次数可以是根据实际的模型训练效果，或根据已有的模型训练经验，人为设定的数值。为了提升模型训练的准确率，上述卷积神经网络对输入的每一个训练样本，均执行上述步骤1～步骤5的训练过程，直到模型训练结束。

本实施例提供的上述卷积神经网络训练方法，通过使用神经网络模型中预设的Soft Focal Loss损失函数，减缓了对于简单样本权重的降低幅度，从而提高了训练后的神经网络模型的准确率。

实施例四：

对于实施例二中所提供的神经网络模型训练方法，本发明实施例提供了一种神经网络模型训练装置，参见图5所示的神经网络模型训练装置的结构框图，该装置包括以下模块：

样本获取模块51，用于获取预先标注好的训练样本。

预测值计算模块52，用于将训练样本输入神经网络模型，通过神经网络模型的前向传播过程得到训练样本的预测值。

损失值计算模块53，用于基于训练样本的预测值，利用目标损失函数确定该训练样本对应的损失值，该目标损失函数中的调节参数的值与训练样本的预测值成负相关。

参数更新模块54，用于基于损失值进行神经网络模型的后向传播和参数更新过程，直至训练结束。

本实施例提供的上述神经网络模型训练装置，由于目标损失函数的权重降低幅度取决于调节参数，通过使目标损失函数中的调节参数的值随训练样本的预测值的增大而减小，减缓了目标损失函数的权重降低幅度，提升了训练得到的神经网络模型的准确率。

在一种实施方式中，上述目标损失函数为

其中，β为调节参数，

为训练样本的预测值，α为训练样本中正样本和负样本的权重调节参数，y为训练样本的标注值。

在一种实施方式中，上述调节参数的计算算式为

其中，γ为预设的超参数。

在一种实施方式中，上述调节参数的计算算式为

其中，γ为预设的超参数，d是取值范围为(0,1)的常数。

在一种实施方式中，上述神经网络模型为卷积神经网络或循环神经网络。

在一种实施方式中，上述预测值计算模块，进一步用于获取神经网络模型根据训练样本输出的张量，并基于张量计算得到训练样本的预测值，预测值的计算算式为：

其中，softmax为神经网络模型的逻辑回归计算，w^l为权重，b^l为偏置，a^l-1为所述神经网络模型第l隐含层输出的张量。

在一种实施方式中，上述参数更新模块54，进一步用于基于损失值进行神经网络模型的后向传播过程得到训练样本的权重的改变率和偏置的改变率；基于训练样本的权重的改变率和偏置的改变率分别对训练样本的权重及偏置进行参数更新；基于训练样本重复执行神经网络模型的前向传播、计算损失值、后向传播和参数更新过程，直到执行次数达到预设次数时训练结束。

在一种实施方式中，上述参数更新模块54，进一步用于根据训练样本的权重的改变率更新训练样本的权重，更新后的训练样本的权重为：

其中，为神经网络模型的学习率，

为训练样本的权重的改变率，C为利用目标损失函数计算得到的训练样本的损失值，

为神经网络模型第l隐含层中第j个神经元和第k个神经元之间的权重；根据偏置的改变率更新训练样本的偏置，更新后的偏置为：

其中，

为偏置的改变率，

为神经网络模型第l隐含层中第j个神经元的偏置。

本实施例提供的上述神经网络模型训练装置，通过将神经网络模型中目标损失函数的调节参数设置为与训练样本预测值相关的函数，随着训练样本预测值的增大减缓了目标损失函数对于简单样本权重的降低幅度，使神经网络模型在预设次数的训练周期内聚焦困难样本训练的同时，不忽视对简单样本的训练，从而提高了训练后的神经网络模型的准确率。

本实施例所提供的装置，其实现原理及产生的技术效果和前述实施例相同，为简要描述，装置实施例部分未提及之处，可参考前述方法实施例中相应内容。

实施例五：

本发明实施例提供了一种计算机可读介质，其中，所述计算机可读介质存储有计算机可执行指令，所述计算机可执行指令在被处理器调用和执行时，所述计算机可执行指令促使所述处理器实现上述实施例所述的神经网络模型训练方法。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统具体工作过程，可以参考前述实施例中的对应过程，在此不再赘述。

本发明实施例所提供的神经网络模型训练方法、装置及电子设备的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行前面方法实施例中所述的方法，具体实现可参见方法实施例，在此不再赘述。

另外，在本发明实施例的描述中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。