CN116310542A

CN116310542A - 一种基于改进交叉熵损失函数的图像分类方法

Info

Publication number: CN116310542A
Application number: CN202310240788.2A
Authority: CN
Inventors: 杨若瑜; 熊伟明
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2023-03-14
Filing date: 2023-03-14
Publication date: 2023-06-23

Abstract

本发明公开了一种基于改进交叉熵损失函数的图像分类方法，包括：步骤1，搭建图像分类模型；步骤2，获取图像训练集；步骤3，利用图像训练集对图像分类模型进行训练，采用改进交叉熵损失函数计算损失值，迭代优化获得训练好的图像分类模型；步骤4，将待分类图像输入到训练好的图像分类模型中，获得分类预测结果。本发明基于改进交叉熵损失函数实现，能充分利用图像样本标签的信息，不仅惩罚神经网络误分类的行为，它还会惩罚经网络虽然分类正确但是对于输出类别置信度不够高的行为；在没有增加仍和任何的神经网络推理时间开销的情况下提升神经网络的分类性能。

Description

一种基于改进交叉熵损失函数的图像分类方法

技术领域

本发明属于深度学习技术领域，尤其涉及一种基于改进交叉熵损失函数的图像分类方法。

背景技术

现有技术中的图像分类任务，通常采用交叉熵损失函数训练模型解决分类任务。多分类交叉熵损失函的工作原理就是将softmax函数的输出向量中表示标签类别的概率尽可能变大(靠近1)，它忽略了softmax的输出向量中对应为非标签类别的概率，尽管softmax函数本身可以把所有的这些概率关联起来，但是其强调的还是softmax函数分子部分的标签类别的概率，并没有考虑非标签类别的概率。因此交叉熵损失函数本身的特征表达区分度不够，从而导致图像分类精度不够高。

性能与速度是卷积神经网络应用中的两个矛盾方面，部分模型虽然能够获得更好的分类性能，但并不适合实际场景的应用。为了提升模型的精度需要增加模型的复杂度，这需要更多的计算时间完成模型的推理步骤，在要求低延迟的应用场景中，比如自动驾驶系统通过图像分类技术进行行人、路标和其他障碍物等物体的实时识别，这些复杂的模型是难以达到要求的。

发明内容

发明目的：本发明所要解决的技术问题是针对现有技术的不足，提供一种基于改进交叉熵损失函数的图像分类方法。

为了解决上述技术问题，本发明公开了一种基于改进交叉熵损失函数的图像分类方法，包括以下步骤：

步骤1，搭建图像分类模型；

步骤2，获取图像训练集；

步骤3，利用图像训练集对图像分类模型进行训练，采用改进交叉熵损失函数计算损失值，迭代优化获得训练好的图像分类模型；

步骤4，将待分类图像输入到训练好的图像分类模型中，获得分类预测结果。

进一步地，步骤1中所述图像分类模型采用神经网络模型，所述神经网络模型采用卷积网络或者基于Transformer的自注意神经网络；将神经网络表示为f；步骤2中所述图像训练集表示为{(x_i，y_i)|i∈{1，...，N}}，x_i是图像训练集中的图像样本，y_i是标签，y_i∈{1，...，K}，K表示分类任务数，K≥3，N是样本数，N≥1；将标签y_i∈{1，...，K}转变成独热(one-hot)编码表示：y_i＝(0，...，1，...，0)∈R^K。

进一步地，步骤3包括：

步骤3.1，初始化图像分类模型的权重，设置图像分类模型的网络参数和训练超参数；

步骤3.2，加载图像训练集，对图像训练集中的训练图像进行预处理；

步骤3.3，对图像分类模型进行迭代训练，采用改进交叉熵损失函数计算损失值，使用反向传播技术计算梯度并使用梯度下降法更新图像分类模型权值，最终获得训练好的图像分类网络模型。

进一步地，步骤3.3中所述改进交叉熵损失函数利用图像样本标签的信息，增加训练时损失值对于图像分类模型的误差的惩罚；所述惩罚包括惩罚神经网络误分类的行为，以及惩罚经神经网络虽然分类正确但是对于输出类别置信度不够高的行为；通过在训练时计算神经网络模型的输出与实际标签的误差信号监督神经网络的训练过程。所述改进交叉熵损失函数不仅可以提升分类神经网络的效果，而且还没有增加仍和任何的神经网络推理时间开销。

进一步地，步骤3.3中所述神经网络f在训练时计算图像训练集中每个图像样本x_i的对率：p_i＝Softmax(f(x_i))；

所述Softmax函数表示为

它使得向量f(x_i)的各个维度之和为1；Softmax(·)函数的输出表示图像样本x_i分别属于第k类的概率p_ik，1≤k≤K。

进一步地，步骤3中所述改进交叉熵损失函数表示为：

其中，y_ij表示独热编码y_i的第j维，p_ij表示图像样本x_i的对率p_i的第j维，1≤j≤K。

进一步地，步骤3中使用反向传播技术计算梯度包括使用所述改进交叉熵损失函数计算导数用于反向传播，损失函数l关于f(x_i)_k，k∈1，2，...，K的导数是：

令

将损失函数l关于f(x_i)_k，k∈1，2，...，K的导数化简为

其中δ_k＝-(y_ik-p_ik)，最终得到了反向传播过程中训练模型的误差大小。

进一步地，步骤3中所述损失函数及其导数的表示存在log或分母为0的情况，因此增加一个因子∈用以增加算法训练过程中的稳定性：

其中，y_ij表示独热编码y_i的第j维，p_ij表示图像样本x_i的对率p_i的第j维，1≤j≤K；∈为稳定因子，∈是一个极小的正数，∈∈{1e-4,1e-5,1e-6,1e-7，1e-8}。它保证了损失函数的数值稳定。y_ij log(p_ij)项可以不需要近似，因为它是标准交叉熵损失中的固有项，因此可以将其拆分出来单独求值和导数。损失函数l的导数为

其中，

避免分母为0的情形。

进一步地，步骤3中使用梯度下降法更新图像分类模型权值包括采用优化算法更新模型参数，所述优化算法采用随机梯度下降SGD(stochastic gradient descent)、Adam、Adagrad或RMSprop(Root Mean Square Propagation)。

进一步地，所述改进交叉熵损失函数结合标签平滑技术(Label Smoothing)一起使用，达到更佳的效果，当所述改进交叉熵损失函数与标签平滑技术一起使用时图像样本x_i的标签y_i变为

其中α∈[0，1)；损失函数l形式不变，且损失函数l关于f(x_i)_k，k∈1,2，...，K的导数公式形式不变。

有益效果：本申请提出的图像分类方法充分利用图像样本的标签信息，增加训练时损失值对于神经网络模型的误差的惩罚，使得损失函数不仅惩罚神经网络误分类的行为，还惩罚经网络虽然分类正确但是对于输出类别置信度不够高的行为，即本申请的损失函数将softmax函数的分子分母统一，所有类别的概率对于损失函数产生同等的贡献，而不再是一种主要由标签类别贡献损失值的one-hot形式，从而达到更好的分类效果，同时也不影响神经网络的推断速度，即不增加模型计算复杂度，不增加推理时间开销，当神经网络完成训练后进行部署运行时，损失函数不会给它带来任何额外的计算复杂度；简单易用，效果显著。

附图说明

下面结合附图和具体实施方式对本发明做更进一步的具体说明，本发明的上述和/或其他方面的优点将会变得更加清楚。

图1为本申请实施例提供的一种基于改进交叉熵损失函数的图像分类方法的流程示意图。

图2为本申请实施例提供的一种基于改进交叉熵损失函数的图像分类方法在Stanford Cars数据集上的效果对比图。

图3为本申请实施例提供的一种基于改进交叉熵损失函数的图像分类方法在Stanford Cars数据集上的效果可视化对比。

图4为本申请实施例提供的一种基于改进交叉熵损失函数的图像分类方法中的改进交叉熵损失函数应用在知识蒸馏任务中，在MNIST数据集上的效果对比图。

具体实施方式

下面将结合附图，对本发明的实施例进行描述。

本申请实施例公开一种基于改进交叉熵损失函数的图像分类方法，如图1所示，包括以下步骤：

步骤1，搭建图像分类模型；

所述图像分类模型采用神经网络模型，所述神经网络模型可以是卷积网络(如ResNet50)或者基于Transformer的自注意神经网络等等。将神经网络表示为f。

步骤2，获取图像训练集；本实施例采用Stanford Cars数据集。

所述图像训练集表示为{(x_i，y_i)|i∈{1，...，N}}，x_i是图像训练集中的图像样本，y_i是标签，y_i∈{1，...，K}，K表示分类任务数，K≥3，N是样本数，N≥1；将标签y_i∈{1，...，K}转变成独热编码表示：y_i＝(0，...，1，...，0)∈R^K。

步骤3，利用图像训练集对图像分类模型进行训练，采用改进交叉熵损失函数计算损失值，迭代优化获得训练好的图像分类模型，包括：

步骤3.1，使用KaimingNormal初始化图像分类模型的权重，设置图像分类模型的网络参数和训练超参数；

步骤3.2，加载图像训练集，对图像训练集中的训练图像进行预处理；所述预处理包括图像随机裁剪、随机旋转、加入噪声、改变亮度和对比度等数据增强方法以及最终转变为张量然后再归一化，最终作为输入；

所述改进交叉熵损失函数利用图像样本标签的信息，增加训练时损失值对于图像分类模型的误差的惩罚；所述惩罚包括惩罚神经网络误分类的行为，以及惩罚经神经网络虽然分类正确但是对于输出类别置信度不够高的行为；通过在训练时计算神经网络模型的输出与实际标签的误差信号监督神经网络的训练过程。

使用分类神经网络f计算出图像训练集中每个图像样本x_i的对率：p_i＝Softmax(f(x_i))。

其中

它使得向量f(x_i)的各个维度之和为1。而Softmax(·)函数的输出表示图像样本x_i分别属于第k类的概率p_ik。且所有的概率p_ik之和为1。损失函数在训练时的作用就是通过惩罚概率p_ik，1≤k≤K，从而使得神经网络f预测图像样本为真实标签对应的概率p_ik接近1，反之则p_ik接近0。

神经网络f使用改进交叉熵损失函数计算每一个图像样本损失值之和，该交叉熵损失函数损失函数可表示为：

其中，y_ij表示独热编码y_i的第j维，p_ij表示图像样本x_i的对率p_i的第j维，1≤j≤K。该损失函数由Softmax函数以及BinaryCrossEntropyLoss函数组成，因此简称SBCELoss。

神经网络f计算损失函数的导数用于反向传播，更新神经网络f的模型参数。损失函数l关于f(x_o)_k，k∈1，2，...，K的导数是：

令

将损失函数l关于f(x_i)_k，k∈1，2，...，K的导数化简为

由于γ_k表示的各个多项式皆为分式，且分母可能为0导致计算结果不稳定，因此增加一个因子∈用以增加算法训练过程中的稳定性：

这里的∈为稳定因子，是一个极小的正数，它保证了损失函数的数值稳定，∈∈{1e-4,1e-5,1e-6,1e-7,1e-8}。y_ij log(p_ij)项可以不需要近似，因为他是标准交叉熵损失中的固有项，因此可以将其拆分出来单独求值和导数。这时损失函数l的导数为

所述图像分类任务完成反向传播过程，求得神经网络f的模型参数的梯度并采用优化算法以更新参数用以更新参数，重复迭代上述步骤，直至神经网络f的损失值稳定为止。

其中优化算法包括随机梯度下降SGD、Adam、Adagrad和RMSprop等。它的作用就是优化模型参数从而减小模型的损失值。SGD是最流行的优化算法，它沿着根据损失函数计算出的参数梯度的反方向更新模型参数。而基于SGD的Adam则采取自适应的策略更新模型参数。

反向传播过程的完成依赖于深度学习框架，包括Tensor Flow、PyTorch和Keras等等。这些框架提供了一系列的深度学习工具、数据集的加载与处理工具、常用的损失函数、常用的模型评估指标、预训练好的模型、加速算子和优化算法等。这使得分类算法的实现与训练和应用部署得到了简化。

图像分类任务使用SBCELoss时可结合标签平滑技术一起使用达到更佳的效果。当SBCELoss与标签平滑技术一起使用时，图像样本的标签y_i变为

其中α∈[0，1)。损失函数l形式不变。且损失函数l关于f(x_i)_k，k∈1，2，...，K的导数公式形式依然不变。

获取待分类的图像，验证训练好的神经网络f的效果。对于验证集或测试集中的图像样本x_i，使用训练好的神经网络f计算对应的对率p_i，取p_i中概率最大的维度对应的下标为最终的预测结果。

图2为本实施例在Stanford Cars数据集上进行图像分类的效果对比，SBCELoss在StanfordCars上的效果十分的明显，图2中SBCELoss准确率超过交叉熵损失函数0.4％～2.6％不等。图3为本实施例在Stanford Cars数据集上进行图像分类的效果可视化对比，图3从左到右三幅图像分别表示使用标准交叉熵损失函数的效果、使用标签平滑技术后的效果以及使用SBCELoss的效果。它表明了使用SBCELoss训练得到的图像分类模型在分类时能够看到图像中更多部分的信息，即对图像中更多位置的信息更敏感(偏红色的区域更大)，而不是仅仅依赖于图像中少数部分位置的信息进行判断与决策输出。图中偏红色的区域大部分是汽车的车身，或者轮胎以及靠近车标分位置。因为这些地方包含了丰富的信息，比如不同汽车的车身颜色以及材质各有不同，而同一类车颜色相似或者材质相似。不同的汽车轮胎也有不同的材质以及外形，因此可以作为分类的重要特征。车标是最能区分一辆车的部分，然而由于其本身太小，所以难以被神经网络模型捕捉到信息。

本实施例的改进交叉熵损失函数适用于任何分类任务，图4为本实施例的改进交叉熵损失函数应用在知识蒸馏任务中，在MNIST数据集上的效果对比。图4中第1行是使用标准交叉熵损失函数训练模型，没有教师(teacher)监督的情况下得到的结果，后面3行皆为有教师监督下得到的结果。虽然标签平滑和标准交叉熵损失函数训练得到的教师在测试集上的精度差不多,分别为98.95％和98.92％，但是教出来的学生(student)还是有较大差别，准确率分别为98.70％和98.23％；而SBCELoss可以很好的适用于蒸馏任务，使用它训练得到的teacher和student都达到了更好的效果。

SBCELoss不仅在类别较多的分类任务上有亮眼的表现，在分割任务、检测任务以及其他可以通过将原问题“规约”转化为分类任务的任务上都会有不错的效果。

具体实现中，本申请提供计算机存储介质以及对应的数据处理单元，其中，该计算机存储介质能够存储计算机程序，所述计算机程序通过数据处理单元执行时可运行本发明提供的一种基于改进交叉熵损失函数的图像分类方法的发明内容以及各实施例中的部分或全部步骤。所述的存储介质可为磁碟、光盘、只读存储记忆体(read-only memory，ROM)或随机存储记忆体(random access memory，RAM)等。

本领域的技术人员可以清楚地了解到本发明实施例中的技术方案可借助计算机程序以及其对应的通用硬件平台的方式来实现。基于这样的理解，本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机程序即软件产品的形式体现出来，该计算机程序软件产品可以存储在存储介质中，包括若干指令用以使得一台包含数据处理单元的设备(可以是个人计算机，服务器，单片机，MUU或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

本发明提供了一种基于改进交叉熵损失函数的图像分类方法，具体实现该技术方案的方法和途径很多，以上所述仅是本发明的具体实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims

1.一种基于改进交叉熵损失函数的图像分类方法，其特征在于，包括以下步骤：

步骤1，搭建图像分类模型；

步骤2，获取图像训练集；

2.根据权利要求1所述的一种基于改进交叉熵损失函数的图像分类方法，其特征在于，步骤1中所述图像分类模型采用神经网络模型，所述神经网络模型采用卷积网络或者基于Transformer的自注意神经网络；将神经网络表示为f；步骤2中所述图像训练集表示为{(x_i,y_i)|i∈{1,…,N}}，x_i是图像训练集中的图像样本，y_i是标签，y_i∈{1,…,K}，K表示分类任务数，K≥3，N是样本数，N≥1；将标签y_i∈{1,…,K}转变成独热编码表示：y_i＝(0,...,1,...,0)∈R^K。

3.根据权利要求2所述的一种基于改进交叉熵损失函数的图像分类方法，其特征在于，步骤3包括：

4.根据权利要求3所述的一种基于改进交叉熵损失函数的图像分类方法，其特征在于，步骤3.3中所述改进交叉熵损失函数利用图像样本标签的信息，增加训练时损失值对于图像分类模型的误差的惩罚；所述惩罚包括惩罚神经网络误分类的行为，以及惩罚经神经网络虽然分类正确但是对于输出类别置信度不够高的行为；通过在训练时计算神经网络模型的输出与实际标签的误差信号监督神经网络的训练过程。

5.根据权利要求4所述的一种基于改进交叉熵损失函数的图像分类方法，其特征在于，步骤3.3中所述神经网络f在训练时计算图像训练集中每个图像样本x_i的对率：p_i＝Softmax(f(x_i))；

所述Softmax函数表示为

6.根据权利要求5所述的一种基于改进交叉熵损失函数的图像分类方法，其特征在于，步骤3中所述改进交叉熵损失函数表示为：

7.根据权利要求6所述的一种基于改进交叉熵损失函数的图像分类方法，其特征在于，步骤3中使用反向传播技术计算梯度包括使用所述改进交叉熵损失函数计算导数用于反向传播，损失函数l关于f(x_i)_k,k∈1,2,…,K的导数是：

其中

8.根据权利要求5所述的一种基于改进交叉熵损失函数的图像分类方法，其特征在于，步骤3中所述改进交叉熵损失函数表示为：

其中，y_ij表示独热编码y_i的第j维，p_ij表示图像样本x_i的对率p_i的第j维，1≤j≤K；∈为稳定因子，∈∈{1e-4,1e-5,1e-6,1e-7,1e-8}；

损失函数l的导数为

9.根据权利要求6、7或8任一项所述的一种基于改进交叉熵损失函数的图像分类方法，其特征在于，步骤3中使用梯度下降法更新图像分类模型权值包括采用优化算法更新模型参数，所述优化算法采用随机梯度下降SGD、Adam、Adagrad或RMSprop。

10.根据权利要求9所述的一种基于改进交叉熵损失函数的图像分类方法，其特征在于，所述改进交叉熵损失函数结合标签平滑技术一起使用，此时图像样本x_i的标签y_i变为

其中α∈[0,1)；损失函数l形式不变，且损失函数l关于f(x_i)_k,k∈1,2,…,K的导数公式形式不变。