CN112819063A

CN112819063A - 一种基于改进的Focal损失函数的图像识别方法

Info

Publication number: CN112819063A
Application number: CN202110117456.6A
Authority: CN
Inventors: 周世界; 孙广鹏
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2021-01-28
Filing date: 2021-01-28
Publication date: 2021-05-18
Anticipated expiration: 2041-01-28
Also published as: CN112819063B

Abstract

本专利公开了一种基于改进的Focal损失函数的图像识别方法，在已有的Focal损失函数的基础上，对Focal损失函数的调制因子进行改进，使函数对困难样本的关注度更高，对简单样本的关注度相对下降；然后，在基于Focal损失函数的卷积神经网络模型的基础上，对剩余负样本集进行预测，筛选所有困难样本，并分成N等份，分别加入原训练集，形成N个新训练集，之后训练多个模型，根据N个模型的投票选择，确定最终预测图片标签的结果。本发明在原有的Focal损失函数的基础上，对困难样本的关注度更高，提高了模型泛化能力；在负样本过多的情形下，利用原有模型筛选出困难样本加入训练集，既提高了模型的准确性，又充分利用了可用样本，也减少了训练模型时的计算量。

Description

一种基于改进的Focal损失函数的图像识别方法

技术领域

本发明属于基于深度学习的多标签图像识别技术领域，具体涉及一种基于改进的Focal损失函数的图像识别方法。

背景技术

卷积神经网络(Convolutional Neural Network，CNN)是一门专门针对图像识别问题设计的神经网络。CNN可以有效的获取原始图像的特征，并且极少经过预处理过程，相对于传统的机器学习，卷积神经网络可以自动提取图片特征，这源于卷积神经网络的两个重要特性：稀疏连接和权值共享。稀疏连接是指卷积层的节点仅仅和前一层的部分节点相连接，只用来学习局部特征。权值共享是指，用卷积核扫描图片过程中，图片中的每个位置使用同样的卷积核，所以权重相同，也就是共享。

CNN的基本结构是由输入层、卷积层、池化层、全连接层以及输出层构成。卷积层和池化层一般会取若干个，采用卷积层和池化层交替设置，即一个卷积层连接一个池化层，池化层之后在连接一个卷积层，以此类推。卷积层有多个特征面组成，每个特征面由多个神经元组成，它的每一个神经元通过卷积核与上一层特征面的局部区域连接。卷积核是一个权值矩阵(如对于二维图像而言可为2X2或者5X5矩阵)，CNN的卷积层就是利用卷积核通过卷积操作提取输入的不同特征，比如一些低级特征如边缘、线条、角落，更高级的特征可由更高层的卷积层提取。池化层紧跟在卷积层之后，同样由多个特征面组成，它的每一个特征面唯一对应于其上一层的一个特征面，不会改变特征面的个数。在CNN的结构中，多个卷积层和池化层之后，连接的是一个或者一个以上的全连接层，全连接层可以整合卷积层或者池化层中的具有类别区分的局部信息。一般为了提升CNN网络性能，全连接层每个神经元的激活函数采用ReLU函数，最后一个全连接层输出值被传递给输出层。

对于识别分类任务而言，选择一个合适的损失函数是非常重要的，损失函数用来评估模型的预测值与真实值的差异程度，它也是神经网络中的目标函数。神经网络训练或优化的过程就是最小化损失函数的过程，损失函数值越小，说明模型的预测值越接近真实值，模型的准确性越好。常见的损失函数有平方损失函数、对损失函数、指数损失函数、交叉熵损失函数以及铰链损失函数等。

样本不平衡问题研究是机器学习领域的一个重要研究方向。使用数量不平衡的样本作为分类模型的训练集，会降低分类模型的泛化能力。图片分类研究早期使用手工特征方法，数据集的规模较小，即图片的数量很少，大约数百张。但是随着深度学习的崛起，小型的图片数据集已经不能满足模型训练的要求。

对于样本不平衡问题，解决问题的基本思路是使得正负样本在训练的过程有相同的权重，实践过程中，把数据集中较多的一类称为“多数类”，把样本较少的那一类称为“少数类”，解决方法有采样、数据合成、加权，一分类等。采样方法是指通过训练集进行处理，使其从不平衡的数据集变成平衡数据集。采样分为过采样和欠采样，过采样就是把少数类样本复制多份，缺点是数据集中反复出现一些样本，导致训练出来的模型会出现一定的过拟合现象；欠采样是指舍弃多余的多数类样本，缺点是最终的训练集丢失了数据，模型只学到了部分特征。数据合成方法是指利用已有样本生成更多样本，最常见的方法叫做SMOTE方法，它是利用样本空间特征的相似性来生成新样本。SMOTE方法会带来一些潜在问题，一方面增加了类别之间的重叠可能性，一方面生成一些无益样本。一分类是指，对于正负样本极不平衡的情况下，换一个不同的角度解决问题：看做一分类问题，对其中一类进行建模。

样本分为简单样本和困难样本，为解决one-stage目标检测中正负样本极不平衡和难分类样本学习的问题，研究人员提出Focal损失函数，Focal loss函数是在交叉熵损失函数的基础上，增加调节因子降低简单样本权重，聚焦于困难样本的训练，该方法关注的是困难样本，通过调节因子调节样本权重，因此可以在通过调节因子优化函数。对于一些解决样本不平衡的方法，有些并没有充分利用全部样本，造成缺少部分样本数据，有些利用了全部样本，使得计算量非常庞大，增加了成本。

发明内容

发明目的：针对上述问题，本发明提出了一种图像分类方法，该方法改进了Focalloss函数，关注困难样本，并充分利用样本数据集，很好地实现了多标签图像分类。

发明内容：本发明所述的一种基于改进的Focal损失函数的图像识别方法，具体包括以下步骤：

(1)对样本进行初次划分，划分成训练集，测试集以及剩余样本集，然后使用训练集，并基于改进的Focal损失函数，训练卷积神经网络模型；

(2)使用训练好的神经网络模型，预测剩余样本集，并挑选出困难负样本，形成困难负样本集，并分出N等份；将N等份的困难负样本集，分别加入步骤(1)中划分的训练集中，形成新的训练集，总计N份新训练集；微调参数，然后训练新训练集，得到N个训练好的预测模型；

(3)使用N个预测模型，预测同一份测试集，然后通过投票的方式得到最终的结果。

进一步地，步骤(1)所述的神经网络模型包括输入层、卷积层、激活层、池化层、全连接层；所述输入层输入的是图片信息，每张图片的大小为128*128；所述卷积层中，使用的卷积核大小filter size＝3x3,步长为1；所述池化层使用的池化方式是最大池化法，提取局部的最大值；所述激活层使用relu函数；所述全连接层使用的是sigmoid函数，输出维度为1。

进一步地，步骤(1)所述的改进的Focal Loss函数为对Focal损失函数的调制因子进行改进，使函数对困难样本的关注度更高，对简单样本的关注度相对下降：

FL_g(x)＝-g(x)^γln(y)

其中，FLg(x)为最终的损失值，g(x)就是新调制因子，y′就是正样本的预测结果，x为置信度，γ是样本控制参数，g(x)＝0.5*(1+cos(π*y′))。

进一步地，在步骤(2)所述的困难负样本集是预测的值偏向数字1的集合，通过设置不同的阈值，调整困难负样本的数据量。

进一步地，所述步骤(2)包括以下步骤：

(21)样本集为S，划分样本集为训练集TrainSet，测试集TestSet，剩余样本集ResidualSet,由于负样本远远大于正样本，此剩余样本集全部为负样本，然后建立卷积神经网络模型CNNFLF；

(22)对剩余样本集ResidualSet进行预测，预测值preds大于阈值0.8,则样本为困难样本，否则，该样本为简单样本；

(23)将困难样本集分成N份，加入训练集中，充当负样本，形成新的训练集TrainSet1，TrainSet2，TrainSet3，……，TrainSetN并分别训练N个模型CNNFLG1,CNNFLG2,CNNFLG3,……,CNNFLGN仍然以TestSet为测试集，得出N个测试预测结果集合preds＝{preds1，preds2，preds3,……,predsN}；

(24)设定i＝0,1,2,3,……,n；i为preds集合中预测值大于阈值的个数，P为计算预测值的函数，设定P(i>1)＝1，表示N个模型预测一个样本时，预测值大于阈值的个数大于1时，表示此样本为正样本，否则为负样本，最终输出预测集合。

有益效果：与现有技术相比，本发明的有益效果：1、本发明在Focal loss的基础上，优化了调制因子，相对于原Focal损失函数，增加了困难样本的损失值，减少了简单样本的损失值，增加了对困难样本的关注程度，提高了图像分类识别的准确率；2、由于样本集中，正负样本的比例极不平衡，本发明考虑了剩余样本，通过第一次建立的卷积神经网络模型，对剩余样本进行识别，挑选出困难样本加入训练集里；3、本发明解决了样本极不平衡的问题，简单样本由于样本特征重复未加入训练集中，减少了计算量，节约成本。

附图说明

图1为本发明的流程图；

图2为本发明中卷积神经网络结构示意图；

图3为本发明中Focal Loss调制因子的坐标图；

图4为本发明中Focal Loss和改进Focal Loss的坐标图曲线对比图。

具体实施方式

为了更清楚地说明本发明的技术方案，下面结合附图对本发明的技术方案做进一步的详细说明：

本发明提出一种基于改进的Focal损失函数的图像识别方法，如图1所示，具体包括以下步骤：

步骤1：对样本进行初次划分，划分成训练集，测试集以及剩余样本集，然后使用训练集，并基于改进的Focal损失函数，训练卷积神经网络模型。

训练一个基于Focal损失的改进模型M，如图2所示，卷积神经网络模型有五个层级结构：输入层、卷积层、激活层、池化层、全连接层。在该卷积神经网络结构中，输入层输入的是图片信息，每张图片的大小为128*128。输入层的格式为n*128*128*3,n是样本的个数，3是指图片的通道个数。卷积核，第一个卷积层中，使用的卷积核大小filter size＝3x3,步长为1。池化层，在该卷积神经网络模型中，使用的池化方式是最大池化法，提取局部的最大值。激活层使用relu函数。全连接层使用的是sigmoid函数，输出维度为1。

该模型所需的训练集和测试集分别是TrainSet和TestSet，剩余未加入测试集和训练集的剩余样本集为ResidualSet。

卷积神经网络模型使用的是改进的Focal Loss函数，满足下列公式，g(x)就是新调制因子，y′就是正样本的预测结果，x为置信度，γ是样本控制参数，最终的损失值记为FLg(x)：

FL_g(x)＝-g(x)^γln(y′)

其中，g(x)＝0.5*(1+cos(π*y′))。

如图3所示，显示的是Focal Loss损失函数的调制因子f(x)和改进的Focal Loss函数调制因子g(x)的作图，x轴代表置信度，y轴是调制因子值。根据Focal Loss的思想，扩大低置信度样本的损失值，相对减小高置信度样本损失值。损失函数输出的损失值和调制因子损失值正相关。两函数相交于(0.5,0.5),在区间[0,0.5],g(x)大于f(x)，说明在低置信度时，以g(x)为调制因子的损失函数的损失值更大。在区间(0.5,1]，g(x)小于f(x)，说明在高置信度时，以g(x)为调制因子的损失函数的损失值小于f(x)更小。符合Focal Loss的原理。

如图4所示，是Focal Loss损失函数FLf(x)和改进的Focal Loss损失函数FLg(x)的坐标图。x轴代表置信度，y轴是损失值。因子γ为2的情况下，在区间[0,0.5]，损失函数FLf(x)的值要小于FLg(x)，说明在低置信度的情况下，损失值更高，模型会对这个样本产生更多的关注度。在区间(0.5,1],损失函数FLf(x)的值要大于FLg(x)，说明在高置信度的情况下，损失值更低，模型会对此样本减少关注度。

步骤2：使用训练好的神经网络模型，预测剩余样本集，并挑选出困难负样本，形成困难负样本集，并分出N等份；将N等份的困难负样本集，分别加入步骤(1)中划分的训练集中，形成新的训练集，总计N份新训练集。使用步骤1中的卷积神经网络，微调参数，然后训练新训练集，得到N个训练好的预测模型。

使用模型M对剩余样本集ResidualSet进行预测，挑选出困难负样本集DSampleSet。困难负样本集，是预测的值偏向数字1的集合，通过设置不同的阈值，调整困难负样本的数据量。将剩余负样本集分成N份，分别加入训练集TrainSet中，生成新的训练集NewTrainSet＝{TrainSet1,TrainSet2,TrainSet3，……，TrainSetN}。然后使用卷积神经网络模型训练新的数据集NewTrainSet，得到新的模型M＝{CNNFLG1,CNNFLG2,CNNFLG3，……，CNNFLGN}。

挑选出剩余样本的困难样本集，再加入原有的训练集中，重新获取模型，预测标签类型。主要步骤如下：

(1)样本集为S，划分样本集为训练集TrainSet，测试集TestSet，剩余样本集ResidualSet,由于负样本远远大于正样本，此剩余样本集全部为负样本，然后建立卷积神经网络模型CNNFLF；

(2)通过步骤1建立的模型，对剩余样本集ResidualSet进行预测，预测值preds大于阈值0.8,则样本为困难样本，否则，该样本为简单样本。本发明中通过筛选，获取困难样本集和简单样本集。在一定范围的阈值内，挑选出前1500的低置信度样本，满足预测值大于0.8。

(3)将困难样本集分成N份，加入训练集中，充当负样本，形成新的训练集TrainSet1，TrainSet2，TrainSet3，……，TrainSetN并分别训练N个模型CNNFLG1,CNNFLG2,CNNFLG3,……,CNNFLGN仍然以TestSet为测试集，得出N个测试预测结果集合preds＝{preds1，preds2，preds3,……,predsN}；

(4)设定i＝0,1,2,3,……,n。i为preds集合中预测值大于阈值的个数。P为计算预测值的函数，设定P(i>1)＝1，表示N个模型预测一个样本时，预测值大于阈值的个数大于1时，表示此样本为正样本，否则为负样本。最终输出预测集合。

步骤3：使用步骤(2)得到的N个预测模型，预测同一份测试集，然后通过投票的方式得到最终的结果。

N个模型都是预测模型，预测测试集TestSet时，使用投票的方法，选出样本预测值，最终确定样本预测集。

本实施方式中，通过对比改进后的Focal Loss损失函数FLg(x)与未改进的FocalLoss损失函数FLf(x)的比较，来验证本发明的效果。

首选训练好初次的模型，然后对剩余样本集进行预测，0.8作为阈值，选出困难样本。在训练集中，正负样本比例1:2，在加入剩余样本集之后，需要使正负样本的比例在1:2和1:3之间，因此需要挑选合适数量的困难样本加入训练集。

将剩余困难样本集分成三份，分别加入训练集中，然后训练，得到三个模型，因为加入的这三份剩余困难负样本没有交集，因此三个新训练集互不干扰，得到的三个模型也不相同，可以使用三个模型同时对同一份测试集预测。

得到三个预测结果preds1,preds2,preds3，每个样本的预测值在0～1之间，三个模型设置同一个阈值threshold＝0.4,如预测值pred>threshold,则表示预测为真，设为1，否则为假，设为0。三个模型，若有两个或者两个以上设置为真，则预测为真，否则为假；结果如表1所示。

表1改进的FocalLoss函数与未改进的函数，在不同置信度的情况下损失值的比较

表1为本实施例中，改进的Focal Loss函数与未改进的函数，在不同置信度的情况下损失值的比较，控制参数γ的值设为2。从上表中可以看出，当置信度的减少时，损失值都增加，但是在置信度高的区域，改进后的FLg(x)值更小，在低置信度的区域改进后的FLg(x)值更大，模型会对低置信度样本增加更多的关注度。说明本发明中经过改进之后的FocalLoss损失函数，增加了对低置信度样本的关注度，减少高置信度样本的关注度，对于模型的分类有更好的效果。

Claims

1.一种基于改进的Focal损失函数的图像识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于改进的Focal损失函数的图像识别方法，其特征在于，步骤(1)所述的神经网络模型包括输入层、卷积层、激活层、池化层、全连接层；所述输入层输入的是图片信息，每张图片的大小为128*128；所述卷积层中，使用的卷积核大小filtersize＝3x3,步长为1；所述池化层使用的池化方式是最大池化法，提取局部的最大值；所述激活层使用relu函数；所述全连接层使用的是sigmoid函数，输出维度为1。

3.根据权利要求1所述的基于改进的Focal损失函数的图像识别方法，其特征在于，步骤(1)所述的改进的Focal Loss函数为对Focal损失函数的调制因子进行改进，使函数对困难样本的关注度更高，对简单样本的关注度相对下降：

FL_g(x)＝-g(x)^γln(y′)

4.根据权利要求1所述的基于改进的Focal损失函数的图像识别方法，其特征在于，在步骤(2)所述的困难负样本集是预测的值偏向数字1的集合，通过设置不同的阈值，调整困难负样本的数据量。

5.根据权利要求1所述的基于改进的Focal损失函数的图像识别方法，其特征在于，所述步骤(2)包括以下步骤：