CN115965823B

CN115965823B - 一种基于Focal损失函数的在线困难样本挖掘方法及系统

Info

Publication number: CN115965823B
Application number: CN202310102270.2A
Authority: CN
Inventors: 孙启玉; 刘玉峰; 孙平
Original assignee: Shandong Fengshi Information Technology Co ltd
Current assignee: Shandong Fengshi Information Technology Co ltd
Priority date: 2023-02-13
Filing date: 2023-02-13
Publication date: 2023-07-25
Anticipated expiration: 2043-02-13
Also published as: CN115965823A

Abstract

本发明涉及一种基于Focal损失函数的在线困难样本挖掘方法及系统，属于图像识别技术领域。方法为：将图像进行图像识别类模型训练，生成样本属于各个类别的概率，获得预测结果；结合样本标签与得到的图像预测结果对各样本进行在线挖掘，挖掘出困难样本，对挖掘出的困难样本进行自适应加权，计算损失；根据损失值回传样本梯度优化模型，验证当前模型有效性，判断模型是否达到指定步数，并保存整个训练过程中评价指标最优的模型。本发明通过结合样本层面与损失函数层面，先采样得到困难样本，再对困难样本做自适应的加权，得到一种在图像识别中解决样本不均衡问题的通用性方法，该方法同时可以实现单阶段、端到端、在线式的样本挖掘与模型训练。

Description

一种基于Focal损失函数的在线困难样本挖掘方法及系统

技术领域

本发明涉及一种困难样本挖掘方法，特别涉及一种基于Focal损失函数的在线困难样本挖掘方法及系统，可适用于所有基于分类的图像识别任务，包括图像分类任务以及图像分割任务等，属于深度学习的图像识别技术领域。

背景技术

图像识别技术是深度学习中非常基础且重要的分支，类似于人类对图像内容的识别，图像识别技术的主要任务是通过提取图像的包括纹理、形状等特征，在图像级或像素级上对图像内容进行理解，并用于下游分类、检测以及分割等任务的实现。

随着深度学习的发展，样本充足的图像识别任务已经能够在效果和效率之间取得较好的平衡，ResNet、FPN、Deeplab等算法将图像识别任务的精度大幅提升。但样本不均衡的问题一直存在并阻碍着图像识别任务的进一步发展，典型的处理样本不均衡问题的方法可分为样本层面、损失函数层面等。

从样本层面可以通过采样的方式使不同样本数量达到均衡，常用方法有随机过采样与随机欠采样，过采样会尽可能多地增加少数类的样本数量，欠采样会减少多数类的样本数量。但随机过采样有可能引入片面噪声，导致模型过拟合，而随机欠采样可能会导致丢失含有重要信息的样本。

少数类样本因其数量少、难以有效地进行特征学习，因此又被称为困难样本，基于困难样本解决样本不均衡问题的方法又被称为困难样本挖掘。

从损失函数层面可以通过对不同样本赋予不同大小的权重处理样本不均衡问题，具体做法是对少数类样本赋予更大的权重，对多数类样本赋予更小的权重。但对样本加权的方式忽略了多数类样本所占的比重，在一些极端特殊场景下，例如在遥感影像中，某些数据集中多数类样本占比可达98%，虽然赋予多数类样本很小的权重，但这些样本的累积影响仍然会影响模型的优化。

发明内容

本发明的目的是克服上述现有技术的不足，而提供了一种基于Focal损失函数的在线困难样本挖掘方法，通过结合样本层面与损失函数层面的思想，将样本采样与加权的方式进行融合，通过采样得到困难样本之后，再对困难样本做自适应的加权，从而得到一种在图像识别中解决样本不均衡问题的通用性方法，该方法同时可以实现单阶段、端到端、在线式的样本挖掘与模型训练。

本发明采取的技术方案为：

一种基于Focal损失函数的在线困难样本挖掘方法，包括步骤：

S1.将图像进行图像识别模型训练，基于分类任务的图像识别模型会生成样本属于各个类别的概率，获得预测结果；

S2.结合样本标签与得到的图像预测结果对各样本进行在线挖掘，挖掘出困难样本，对挖掘出的困难样本进行自适应加权，计算损失；

通过设置阈值的方式进行采样，以预测概率/>作为采样标准，将每个样本的预测概率/>与/>进行比较，采样出小于/>的样本即困难样本，舍弃其他样本；基于Focal损失函数对当前困难样本做进一步的加权，加入权重系数/>；利用如下公式计算损失：

，

其中，N属于样本数，M为类别数，i代表图像中的第i个像素点，其取值范围为{1,2,3,…,N}；j代表第j类，其取值范围为{1,2,…,M}；为指示函数，若样本i的真实类别/>等于j则/>，否则/>；/>为样本i属于类别j的概率值；/>为预先设置的阈值，/>>0为可调节因子；

S3. 根据损失值计算样本梯度并更新网络参数从而实现图像识别模型的优化，验证当前图像识别模型有效性，得到当前图像识别模型的评价指标，判断模型是否达到指定步数，若达到指定步数则停止训练，若未达到指定步数则继续训练，在此过程中保存整个训练过程中评价指标最优的模型。

上述方法中，S1所述的图像识别模型包括图像分类任务模型、图像分割任务模型，这些基于分类任务的图像识别模型均会生成样本属于各个类别的概率。

S2所述的取经验值0.7；/>取经验值2。

S2所述的挖掘出的困难样本，每个样本的预测概率最大不会超过/>，对于分类较准确的样本，/>趋向于/>，则/>趋向于0，权重系数/>趋向于0，对于分类不准确的样本，/>趋向于1，权重系数/>趋向于1。

S3中为每千次在验证集上根据平均交并比验证当前模型的有效性，交并比公式为：

，

其中x _ij是类别为i的样本被预测为j类的样本数量，x _ji是类别为j的样本被预测为i类的样本数量，x _ii是类别为i的样本被预测为i类的样本数量，M为类别数。

本发明的另一目的是提供一种基于Focal损失函数的在线困难样本挖掘系统，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上所述的基于Focal损失函数的在线困难样本挖掘方法。

一种存储设备，其为计算机可读存储设备，所述的计算机可读存储设备上存储有计算机程序用于实现如上所述的基于Focal损失函数的在线困难样本挖掘方法中的步骤。

本发明的有益效果是：

（1）与常见采样方法不同的是，本发明无需在进行训练之前进行离线式的采样，而是在训练过程中通过在损失函数中利用指示函数实现在线式的样本采样，能够省去模型训练前的采样过程，大幅简化数据集处理流程。采用的困难样本挖掘机制可以作用于任一基于分类任务的图像识别任务，同时可以实现单阶段、端到端、在线式的样本挖掘与模型训练，将样本挖掘与模型训练的过程融合起来，降低了数据预处理的难度，同时提高了图像识别任务的精度。

（2）本发明仅基于困难样本进行加权，目的是为了解决一些极端情况下，多数类样本权重累积仍会影响模型优化的问题，通过基于困难样本的加权方式，能够有效解决这一问题。

（3）本发明通过融合样本层面与损失函数层面解决样本不平衡问题的方法，通过对样本进行有针对性地采样与加权的方式，挖掘出真正对模型训练重要的样本，使得模型学习到更关键的特征，解决了样本不平衡问题，同时适用于极端场景，并且在基于样本的图像识别任务中具有通用性，提升了图像识别任务的精度。

附图说明

图1为本发明方法的总流程图；

图2为本发明方法步骤S2的流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

实施例1

本发明对于所有基于分类的图像识别任务均适用，本实施例以图像分割任务为例，图像中的像素即为样本。

一种基于Focal损失函数的在线困难样本挖掘方法，如图1所示，包括步骤：

S1.将图像进行图像识别模型训练，生成样本属于各个类别的概率，获得预测结果：

以图像分割模型为例，图像经过模型之后会针对每个样本，即每个像素点，生成该样本属于各个类别的概率，以尺寸为H×W，且类别数为M的图像为例，经过任一分割模型后会输出维度为M×H×W的预测结果，在预测结果中，位于位置（h,w）的M维向量代表的是位置（h,w）处样本属于各个类别的概率值，各概率值之和为1。

S2. 结合样本标签与得到的图像预测结果对各样本进行在线挖掘，挖掘出困难样本，对挖掘出的困难样本进行自适应加权，计算损失：

结合步骤S1得到的图像预测结果，以及样本标签，本发明会进一步对各样本进行挖掘与加权，通过单阶段、端到端、在线式的方式解决样本不平衡问题，具体实现方式是利用一种基于Focal损失函数的在线困难样本挖掘方法，其数学表达如公式（1）所示：

（1），

其中，N属于样本数，此处是每张图像中的像素数量；M为类别数，i代表图像中的第i个像素点，其取值范围为{1,2,3,…,N}；j代表第j类，其取值范围为{1,2,…,M}；为指示函数，若样本i的真实类别y _i等于j则/>，否则/>；/>为样本i属于类别j的概率值；/>为预先设置的阈值，当/>取值为1 时，相当于不进行采样操作，本发明中/>取经验值0.7；/>>0为可调节因子，本发明中取经验值2。

如图2所示，该过程共分为三步：

第一步，通过在线的方式挖掘困难样本。本发明解决样本不平衡问题的思路首先是对样本进行采样，与常见的随机采样不同，本发明通过设置阈值的方式进行采样，以预测概率/>作为采样标准，具体采样标准为仅对模型更不确定的样本（困难样本）进行采样，衡量模型对样本确定程度的标准即为预测概率/>，预测概率/>越小说明模型对当前样本越不确定，此步骤又被称为困难样本挖掘。在线困难样本挖掘的具体实现方式为，将每个样本的预测概率/>与/>进行比较，采样出小于/>的样本，原理见公式（1）。预测概率/>大于的样本，说明该样本易分类，无需再进行学习，因此本发明选择舍弃这些易分类样本，仅保留有学习价值的困难样本。如图2所示，n为在线困难样本挖掘后保留的样本数。

此步为本发明进行样本采样的部分，与常见采样方法不同的是，本发明无需在进行训练之前进行离线式的采样，而是在训练过程中通过在损失函数中利用指示函数实现在线式的样本采样，能够省去模型训练前的采样过程，大幅简化数据集处理流程。

第二步，对挖掘出的困难样本进行自适应加权。由于当前困难样本是根据预测概率的大小挖掘出来的，少数类样本和多数类样本都有可能成为困难样本。因此，为了进一步处理样本不均衡问题，本发明基于Focal损失函数对当前困难样本做进一步的加权，具体做法为加入权重系数，见公式（1）。由于目前处理的样本是经过上一步挖掘出的困难样本，每个样本的预测概率/>最大不会超过/>，因此对于分类较准确的样本，/>趋向于，则/>趋向于0，权重系数/>趋向于0，对于分类不准确的样本，/>趋向于1，权重系数/>趋向于1。因此，在困难样本中，本发明再一次根据样本性质自适应地对各样本进行了加权。总的来说，通过此种计算方式，本发明进一步增加了困难样本中分类不准确样本在损失函数中的权重，使得真正难以学习的样本得到进一步的关注。如图2所示，n个经过采样并且加权后的样本会参与到下一步的损失计算中。

此步为本发明进行样本加权的部分，与Focal损失函数不同的是，本发明仅基于困难样本进行加权，目的是为了解决一些极端情况下，多数类样本权重累积仍会影响模型优化的问题，通过基于困难样本的加权方式，能够有效解决上述问题。

第三步，根据最终保留的样本计算损失。到此步，本发明根据公式（1）实现了端到端地样本采样与自适应加权，根据图2所示，仅计算采样并加权后的n个样本的损失，并回传梯度优化模型。

S3.根据损失值计算样本梯度并更新网络参数从而实现图像识别模型的优化，验证当前图像识别模型有效性，得到当前图像识别模型的评价指标，判断模型是否达到指定步数，若达到指定步数则停止训练，若未达到指定步数则继续训练，在此过程中保存整个训练过程中评价指标最优的模型：

步骤S2得到当前N个训练样本的损失值，根据梯度下降算法，由样本损失值可计算出当前样本的梯度用于优化模型，梯度下降算法属于经典的模型优化算法，不在本发明创新性涉及范围内。由于本发明适用于多数图像识别模型，具体地，若当前图像识别模型中包含神经网络结构，则可根据损失值计算出样本梯度，实现神经元节点参数的更新。若模型未达到指定步数，则继续训练，在训练过程中，本发明会每千次在验证集上根据平均交并比（见下方公式）验证当前模型的有效性，并保存整个训练过程中评价标准最优的模型，

，

若模型达到指定步数，则停止训练。

实施例2

一种基于Focal损失函数的在线困难样本挖掘系统，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上实施例1所述的基于Focal损失函数的在线困难样本挖掘方法。

一种存储设备，其为计算机可读存储设备，所述的计算机可读存储设备上存储有计算机程序用于实现如上实施例1所述的基于Focal损失函数的在线困难样本挖掘方法中的步骤。

以上所述仅为本发明的较佳实施例而已，并不用于限制本发明，凡在本发明的精神和原则范围之内所作的任何修改、等同替换以及改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于Focal损失函数的在线困难样本挖掘方法，其特征是，包括步骤：

S1.将图像进行图像识别模型训练，基于分类任务的图像识别模型会生成样本属于各个类别的概率，获得预测结果；每个样本为图像的每个像素点；

，

其中，N属于样本数，M为类别数，i代表图像中的第i个像素点，其取值范围为{1,2,3,...,N}；j代表第j类，其取值范围为{1,2,...,M}；为指示函数，若样本i的真实类别y _i等于j则/>，否则/>；/>为样本i属于类别j的概率值；/>为预先设置的阈值，γ >0为可调节因子；

2.根据权利要求1所述的一种基于Focal损失函数的在线困难样本挖掘方法，其特征是，S1所述的图像识别模型包括图像分类任务模型、图像分割任务模型。

3.根据权利要求1所述的一种基于Focal损失函数的在线困难样本挖掘方法，其特征是，S2所述的取经验值0.7；γ取经验值2。

4.根据权利要求1所述的一种基于Focal损失函数的在线困难样本挖掘方法，其特征是，S2所述的挖掘出的困难样本，每个样本的预测概率最大不会超过/>，对于分类较准确的样本，/>趋向于/>，则/>趋向于0，权重系数/>趋向于0，对于分类不准确的样本，/>趋向于1，权重系数/>趋向于1。

5.根据权利要求1所述的一种基于Focal损失函数的在线困难样本挖掘方法，其特征是，S3中为每千次在验证集上根据平均交并比验证当前模型的有效性，交并比公式为：，

，

6.一种基于Focal损失函数的在线困难样本挖掘系统，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征是，所述处理器执行所述程序时实现如权利要求1-5任一项所述的基于Focal损失函数的在线困难样本挖掘方法。

7.一种存储设备，其为计算机可读存储设备，其特征是，所述的计算机可读存储设备上存储有计算机程序用于实现如权利要求1-5任一项所述的基于Focal损失函数的在线困难样本挖掘方法中的步骤。