CN113392875B

CN113392875B - 一种图像细粒度分类的方法、系统和设备

Info

Publication number: CN113392875B
Application number: CN202110552041.1A
Authority: CN
Inventors: 彭耀葵; 刘怡俊; 林文杰; 叶武剑
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2021-05-20
Filing date: 2021-05-20
Publication date: 2023-03-24
Anticipated expiration: 2041-05-20
Also published as: CN113392875A

Abstract

本申请公开了一种图像细粒度分类的方法、系统和设备，方法包括：首先对图像并进行预处理和归一化处理，接着输入到卷积神经网络中进行特征提取，既考虑到传统的图像空间特征，又考虑到图像通道的特征，有利于提高细粒度图像分类的效果；然后通过SENet模块获得不同通道之间的比例关系，能够识别出图像更多细微的判别性区域；并且采用度量学习的聚类方法，实现在一个图像中找到多个注意力区域，从而将图像中相同类别的局部特征进一步拉近距离，不同类别的局部特征进一步拉大距离；最后不断对图像分类模型进行训练直至损失函数收敛获取最优图像分类模型，从而通过模型对图像进行分类，从而解决现有技术对图像进行细粒度分类的准确度较差的技术问题。

Description

一种图像细粒度分类的方法、系统和设备

技术领域

本申请涉及图像处理技术领域，尤其涉及一种图像细粒度分类的方法、系统和设备。

背景技术

图像细粒度分类的目的是为了区分一个共同级类的从属类，例如从鸟类中再区分出天鹅、大雁、鸳鸯、鹈鹕、海鸥等，这些鸟类的子类基本上都具有相似的全局几何特征和外观特征，这种细粒度分类不同于普通的猫、狗之间分类。细粒度分类需要能够找到物体的细微差别，将这些细微的差别提取成物体的特征，从而实现对物体的进一步分类。特别在图像的不同部分尽可能多地找到最具区分性的区域特征，这对于分类的效果至关重要。

从数据集的处理方式来说，图像细粒度分类一般采用强监督和弱监督两种方式。而弱监督比强监督的方式节省了大量的工作，也符合智能化发展的方向，因此弱监督的方式备受研究者们的关注。

目前，弱监督的方式如专利号为CN 110619369 A的专利文件中采用了特征金字塔的方式来实现细粒度分类，但是该方法仅仅对图像的细粒度特征区域做了大致的定位，而没有进一步细分这些可判别性区域，没有进一步找到图像中更有细微区别的地方，导致对图像进行细粒度分类的准确度较差。

发明内容

本申请提供了一种图像细粒度分类的方法、系统和设备，用于解决现有技术对图像进行细粒度分类的准确度较差的技术问题。

有鉴于此，本申请第一方面提供了一种图像细粒度分类的方法，所述方法包括：

S1、将图像的基准数据集分为训练集和测试集，对所述训练集中的图像依次进行预处理和归一化处理得到第一图像；

S2、通过卷积神经网络对所述第一图像进行特征提取，得到深度特征图，并将所述深度特征图经过全连接层和softmax函数处理后得到的概率与预置标签值的差值记为第一损失函数；

S3、通过SENet模块对所述深度特征图的通道信息添加权重后，将所述深度特征图输入到金字塔网络，输出所述深度特征图的多个注意力区域，并将多个所述注意力区域经过所述全连接层和softmax函数处理后得到的概率与预置标签值的差值记为第二损失函数；

S4、对多个所述注意力区域进行排序后，进行前向传播和反馈训练，并基于总损失函数计算损失值，判断所述损失值是否不再变化，若是停止训练，得到最终的图像分类模型，否则返回步骤S2，所述总损失函数由所述第一损失函数和所述第二损失函数组成；

S5、将所述测试集的图像输入到所述图像分类模型中，得到图像细粒度分类结果。

可选地，步骤S1具体包括：

读取所述基准数据集，通过文件夹或整体标签信息的分类方式将所述基准数据集分为所述训练集和所述测试集；

对所述训练集中的图像进行裁剪和翻转处理，得到RGB三通道图像；

对所述RGB三通道图像进行归一化处理，得到所述第一图像。

可选地，所述卷积神经网络，包括：ResNet50、Resnet101。

可选地，所述对多个所述注意力区域进行排序后，进行前向传播和反馈训练，具体包括：

通过Rank函数对多个所述注意力区域进行排序，对信息量排名靠前的若干所述注意力区域进行前向传播和反馈训练。

可选地，所述总损失函数为：

L_total＝L_rawloss+μL_np；

式中，L_rawloss为所述第一损失函数；μ为超参数，取0.5；L_np为所述第二损失函数；y为图像的预置标签值，取0或1；

为预测的概率。

本申请第二方面提供一种图像细粒度分类的系统，所述系统包括：

归一化模块，用于将图像的基准数据集分为训练集和测试集，对所述训练集中的图像依次进行预处理和归一化处理得到第一图像；

提取模块，用于通过卷积神经网络对所述第一图像进行特征提取，得到深度特征图，并将所述深度特征图经过全连接层和softmax函数处理后得到的概率与预置标签值的差值记为第一损失函数；

检测模块，用于通过SENet模块对所述深度特征图的通道信息添加权重后，将所述深度特征图输入到金字塔网络，输出所述深度特征图的多个注意力区域，并将多个所述注意力区域经过所述全连接层和softmax函数处理后得到的概率与预置标签值的差值记为第二损失函数；

训练模块，用于对多个所述注意力区域进行排序后，进行前向传播和反馈训练，并基于总损失函数计算损失值，判断所述损失值是否不再变化，若是停止训练，得到最终的图像分类模型，否则返回步骤S2，所述总损失函数由所述第一损失函数和所述第二损失函数组成；

分类模块，用于将所述测试集的图像输入到所述图像分类模型中，得到图像细粒度分类结果。

可选地，所述归一化模块，具体用于：

对所述RGB三通道图像进行归一化处理，得到所述第一图像。

可选地，所述卷积神经网络，包括：ResNet50、Resnet101。

本申请第三方面提供一种图像细粒度分类的设备，所述设备包括处理器以及存储器：

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器用于根据所述程序代码中的指令，执行如上述第一方面所述的图像细粒度分类的方法的步骤。

从以上技术方案可以看出，本申请具有以下优点：

本申请提供了一种图像细粒度分类的方法，包括：S1、将图像的基准数据集分为训练集和测试集，对训练集中的图像依次进行预处理和归一化处理得到第一图像；S2、通过卷积神经网络对第一图像进行特征提取，得到深度特征图，并将深度特征图经过全连接层和softmax函数处理后得到的概率与预置标签值的差值记为第一损失函数；S3、通过SENet模块对深度特征图的通道信息添加权重后，将深度特征图输入到金字塔网络，输出深度特征图的多个注意力区域，并将多个注意力区域经过全连接层和softmax函数处理后得到的概率与预置标签值的差值记为第二损失函数；S4、对多个注意力区域进行排序后，进行前向传播和反馈训练，并基于总损失函数计算损失值，判断损失值是否不再变化，若是停止训练，得到最终的图像分类模型，否则返回步骤S2，总损失函数由第一损失函数和第二损失函数组成；S5、将测试集的图像输入到图像分类模型中，得到图像细粒度分类结果。

本申请的图像细粒度分类的方法，首先对图像并进行预处理和归一化处理，接着输入到卷积神经网络中进行特征提取，既考虑到传统的图像空间特征，又考虑到图像通道的特征，避免了特征的单一化，有利于提高细粒度图像分类的效果；然后通过SENet模块获得不同通道之间的比例关系，能够识别出图像更多个更加细微的判别性区域；并且采用度量学习的聚类方法，实现在一个图像中找到多个注意力区域，从而将图像中相同类别的局部特征进一步拉近距离，不同类别的局部特征进一步拉大距离；最后不断对图像分类模型进行训练直至损失函数收敛获取最优图像分类模型，从而通过模型对图像进行分类，本申请能够克服图像背景复杂的环境，在兼顾图像整体特征和局部特征信息的前提下，进一步提高细粒度图像分类的准确率。从而解决现有技术对图像进行细粒度分类的准确度较差的技术问题。

附图说明

图1为本申请实施例中提供的一种图像细粒度分类的方法实施例一的流程图；

图2为本申请实施例中提供的一种图像细粒度分类的方法实施例二的流程图；

图3为本申请实施例中提供的一种图像细粒度分类的系统的结构图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

请参阅图1，图1为本申请实施例中提供的一种图像细粒度分类的方法实施例一的流程图。

本实施例提供的一种图像细粒度分类的方法，包括：

步骤101、将图像的基准数据集分为训练集和测试集，对训练集中的图像依次进行预处理和归一化处理得到第一图像。

需要说明的是，本实施例选取的图像的基准数据集为CUB-200-2011,Stanford-Cars,FGVC-Aircraft，通过文件夹和整体的标签信息这种大分类方式，将数据的训练集与测试集进行分离。不需要采用对图像的细微地方进行标注和画矩形框等人工处理的方式。然后对图像进行裁剪、翻转等处理，得到448×448×3的图像，最后对该图像进行归一化以便于数学表示得到第一图像。

步骤102、通过卷积神经网络对第一图像进行特征提取，得到深度特征图，并将深度特征图经过全连接层和softmax函数处理后得到的概率与预置标签值的差值记为第一损失函数。

需要说明的是，传统获取的图像特征一般是图像的空间特征，即同一幅图中不同部位表示不同的内容；而在本实施例中，将预处理完的第一图像按批大小输入具有预训练权重的卷积神经网络模型，输出对应深度特征图。这是获得了图像整体的特征信息，保留了图像的整体性，既考虑到传统的图像空间特征，又将图像通道的特征加以考虑，避免了特征的单一化，有利于提高细粒度图像分类的效果。

步骤103、通过SENet模块对深度特征图的通道信息添加权重后，将深度特征图输入到金字塔网络，输出深度特征图的多个注意力区域，并将多个注意力区域经过全连接层和softmax函数处理后得到的概率与预置标签值的差值记为第二损失函数。

需要说明的是，本实施例除了分析图像的空间特征，还通过SENet获得不同通道之间的比例关系，具体的通过SENet模块对深度特征图的通道信息添加权重，进一步地，为了能够检测到物体表面细小的判别性区域，本实施例对经过初步卷积处理后的深度特征图输入到金字塔网络进行分析，融合细粒度图像中深层和浅层的特征，在保证整体特征的同时，又关注于具有判别性的区域特征。

本实施例的损失函数分为两部分，一是步骤102的整体损失函数，具体的，将深度特征图经过全连接层和softmax函数处理后得到的概率(0-1)，并将该改了与预置的标签值之间的差值作为一个损失函数，即第一损失函数。二是步骤103的损失函数，具体的，将多个注意力区域经过全连接层和softmax函数处理后得到的概率与预置标签值的差值记为第二损失函数。

步骤104、对多个注意力区域进行排序后，进行前向传播和反馈训练，并基于总损失函数计算损失值，总损失函数由第一损失函数和第二损失函数组成。

需要说明的是，本实施例通过Rank函数对多个注意力区域进行排序，获得图像可判别信息较强的区域，再对这些区域进行前向传播和反馈训练，并基于由第一损失函数和第二损失函数组成于总损失函数计算每次训练后的函数损数值。

步骤105、判断损失值是否不再变化，若是停止训练，得到最终的图像分类模型，否则返回步骤102。

需要说明的是，损失值不再变化，即总损失函数趋于收敛，则停止训练，得到最终的图像分类模型，否则返回步骤102。

步骤106、将测试集的图像输入到图像分类模型中，得到图像细粒度分类结果。

本实施例通过对CUB-200-2011、FGVC Aircraft和Stanford Cars常用公开的细粒度图像分类数据集输入到图像分类模型中进行测试，得到最终的准确率。表1为实验中使用的数据集，表2为模型在CUB-200-2011、FGVC Aircraft和Stanford Cars数据集上测试结果。

表1

Dataset	#Class	#Train	#Test
				CUB-200-2011	200	5,994	5,794
Stanford Cars	196	8,144	8,041
				FGVC Aircraft	100	6,667	3,333

表2

本实施例的图像细粒度分类的方法，首先对图像并进行预处理和归一化处理，接着输入到卷积神经网络中进行特征提取，既考虑到传统的图像空间特征，又考虑到图像通道的特征，避免了特征的单一化，有利于提高细粒度图像分类的效果；然后通过SENet模块获得不同通道之间的比例关系，能够识别出图像更多个更加细微的判别性区域；并且采用度量学习的聚类方法，实现在一个图像中找到多个注意力区域，从而将图像中相同类别的局部特征进一步拉近距离，不同类别的局部特征进一步拉大距离；最后不断对图像分类模型进行训练直至损失函数收敛获取最优图像分类模型，从而通过模型对图像进行分类，本申请能够克服图像背景复杂的环境，在兼顾图像整体特征和局部特征信息的前提下，进一步提高细粒度图像分类的准确率。从而解决现有技术对图像进行细粒度分类的准确度较差的技术问题。

以上为本申请实施例提供的一种图像细粒度分类的方法的实施例一，以下为本申请实施例提供的一种图像细粒度分类的方法的实施例二。

请参阅图2，图2为本申请实施例中提供的一种图像细粒度分类的方法实施例二的流程图。

本实施例提供的一种图像细粒度分类的方法，包括：

步骤201、读取基准数据集，通过文件夹或整体标签信息的分类方式将基准数据集分为训练集和测试集。

步骤202、对训练集中的图像进行裁剪和翻转处理，得到RGB三通道图像。

步骤203、对RGB三通道图像进行归一化处理，得到第一图像。

步骤201-203与实施例一的步骤101描述类似，请参见步骤101描述，在此不再赘述。

步骤204、通过ResNet50或Resnet101对第一图像进行特征提取，得到深度特征图，并将深度特征图经过全连接层和softmax函数处理后得到的概率与预置标签值的差值记为第一损失函数。

需要说明的是，本实施例选用卷积神经网络为ResNet50或Resnet101对第一图像进行特征提取，本领域技术人员还可以根据实际情况进行选取，如VGG、DenseNet等卷积神经网络，在此不再赘述。

本实施例的第一损失函数为

y为图像的预置标签值，取0或1；/>

为预测的概率。

步骤205、通过SENet模块对深度特征图的通道信息添加权重后，将深度特征图输入到金字塔网络，输出深度特征图的多个注意力区域，并将多个注意力区域经过全连接层和softmax函数处理后得到的概率与预置标签值的差值记为第二损失函数。

步骤205与实施例一的步骤103描述类似，请参见步骤103描述，在此不再赘述。

步骤206、通过Rank函数对多个注意力区域进行排序，对信息量排名靠前的若干注意力区域进行前向传播和反馈训练，并基于总损失函数计算损失值，总损失函数由第一损失函数和第二损失函数组成。

其中，总损失函数为：

L_total＝L_rawloss+μL_np；

式中，L_rawloss为第一损失函数；μ为超参数，取0.5；L_np为第二损失函数；y为图像的预置标签值，取0或1；

为预测的概率。

本实施例还设置了超参数，通过设置超参来优化损失函数，具体取值为0.5，本领域技术人员可以根据实际需要进行设置，在此不做限定。使用此总损失函数，在pytorch的深度学习框架运行，训练模型的时候通过前向和后向传播不断更新模型的权重参数，最后达到最优结果。

步骤207、判断损失值是否不再变化，若是停止训练，得到最终的图像分类模型，否则返回步骤204。

步骤208、将测试集的图像输入到图像分类模型中，得到图像细粒度分类结果。

步骤207、步骤208与实施例步骤104、步骤105描述相同，请参见步骤104、步骤105描述，在此不再赘述。

以上为本申请实施例提供的一种图像细粒度分类的方法的实施例二，以下为本申请实施例提供的一种图像细粒度分类的系统的实施例。

请参阅图3，图3为本申请实施例中提供的一种图像细粒度分类的系统的结构图。

本实施例提供的一种图像细粒度分类的系统，包括：

归一化模块301，用于将图像的基准数据集分为训练集和测试集，对训练集中的图像依次进行预处理和归一化处理得到第一图像。

提取模块302，用于通过卷积神经网络对第一图像进行特征提取，得到深度特征图，并将深度特征图经过全连接层和softmax函数处理后得到的概率与预置标签值的差值记为第一损失函数。

检测模块303，用于通过SENet模块对深度特征图的通道信息添加权重后，将深度特征图输入到金字塔网络，输出深度特征图的多个注意力区域，并将多个注意力区域经过全连接层和softmax函数处理后得到的概率与预置标签值的差值记为第二损失函数。

训练模块304，用于对多个注意力区域进行排序后，进行前向传播和反馈训练，并基于总损失函数计算损失值，判断损失值是否不再变化，若是停止训练，得到最终的图像分类模型，否则返回步骤S2，总损失函数由第一损失函数和第二损失函数组成。

分类模块305，用于将测试集的图像输入到图像分类模型中，得到图像细粒度分类结果。

本实施例的图像细粒度分类的系统，首先对图像并进行预处理和归一化处理，接着输入到卷积神经网络中进行特征提取，既考虑到传统的图像空间特征，又考虑到图像通道的特征，避免了特征的单一化，有利于提高细粒度图像分类的效果；然后通过SENet模块获得不同通道之间的比例关系，能够识别出图像更多个更加细微的判别性区域；并且采用度量学习的聚类方法，实现在一个图像中找到多个注意力区域，从而将图像中相同类别的局部特征进一步拉近距离，不同类别的局部特征进一步拉大距离；最后不断对图像分类模型进行训练直至损失函数收敛获取最优图像分类模型，从而通过模型对图像进行分类，本申请能够克服图像背景复杂的环境，在兼顾图像整体特征和局部特征信息的前提下，进一步提高细粒度图像分类的准确率。从而解决现有技术对图像进行细粒度分类的准确度较差的技术问题。

进一步地，本申请还提供了一种图像细粒度分类的设备，其特征在于，所述设备包括处理器以及存储器：

所述处理器用于根据所述程序代码中的指令执行方法实施例所述的图像细粒度分类的方法。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(英文全称：Read-OnlyMemory，英文缩写：ROM)、随机存取存储器(英文全称：Random Access Memory，英文缩写：RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。